4 Cạm Bẫy Phân Tích Dữ Liệu Và Cách Phòng Tránh

Thu Giang
30/11/2018 - 07:00 3162     0

Sau đây Saga.vn xin chia sẻ tới bạn đọc bài viết của Tom Capper một chuyên gia về phân tích dữ liệu. Bài viết sẽ phân tích về 4 cạm bẫy dữ liệu mà mọi người thường mắc phải và cách phòng tránh chúng.

Digital marketing (marketing kỹ thuật số) là một lĩnh vực định hướng dữ liệu (data-driven) đáng tự hào. Tuy nhiên, chúng ta thường không có dữ liệu đầy đủ hoặc chính xác để làm việc, đặc biệt là với SEO (tối ưu hóa công cụ tìm kiếm). Điều này dẫn chúng ta rơi vào những kết luận sai lầm khi nỗ lực chứng minh các lập luận hoặc định lượng các vấn đề và cơ hội của mình.

Trong bài viết này, tôi sẽ chỉ ra 4 cạm bẫy phân tích dữ liệu đặc thù trong ngành marketing và cách phòng tránh chúng.

1. Kết luận vội vã

Tôi đã từng tiến hành một nghiên cứu xếp hạng các yếu tố xung quanh vấn đề nhận thức về thương hiệu (brand awareness) và đăng tải một thông báo như sau:

"... thực tế là tên miền có thẩm quyền - domain authority (hoặc lượng tìm kiếm liên quan đến thương hiệu, hay bất kỳ thứ gì khác) có liên quan mật thiết tới thứ hạng của trang web cho thấy rằng, bất kỳ một trong (hoặc tất cả) những điều sau đây đều có khả năng:

  • Liên kết khiến các trang web xếp hạng tốt hơn
  • Thứ hạng tốt cũng khiến các trang web nhận được nhiều liên kết hơn
  • Một số yếu tố thứ ba (ví dụ: danh tiếng hoặc tuổi đời của trang web) khiến các trang web nhận được cả liên kết và thứ hạng "

Tuy nhiên, tôi muốn đi sâu vào điều này hơn và cung cấp cho bạn một khuôn mẫu để tự mình phân tích, bởi vì vấn đề này vẫn xuất hiện và được đề cập đến rất nhiều.

Thứ nhất, chúng ta có khuynh hướng xác nhận/củng cố những điều chúng ta thiên vị. Lấy ví dụ, khi thấy một trang web thành công được nhồi nhét đầy từ khóa khắp nơi, chúng ta có thể hùng hồn phát biểu ra một câu sáo ngữ kiểu như “tương quan không phải là nhân quả”, ý nói rằng việc chèn nhiều từ khóa không phải là nguyên nhân dẫn tới sự thành công của trang web. Nhưng đa số chúng ta đều dễ dàng chấp nhận mà không nghi ngờ gì kết luận của các cuộc nghiên cứu tương tự với những yếu tố mà ta nghĩ là hiệu quả, chẳng hạn như liên kết.

Thứ hai, chúng ta thất bại trong việc phân tích phản biện một cách cẩn thận các cơ chế tiềm năng. Các tùy chọn không chỉ là nguyên nhân hay sự trùng hợp ngẫu nhiên.

Trước khi bạn đưa ra một kết luận dựa trên một mối tương quan, bạn bắt buộc phải cân nhắc các khả năng có thể xảy ra sau:

  • Hoàn toàn trùng hợp ngẫu nhiên (Complete coincidence)
  • Sự đảo ngược nhân quả (Reverse causation)
  • Nguyên nhân chung (Joint causation)
  • Tính tuyến tính (Linearity)
  • Khả năng ứng dụng rộng rãi (Broad applicability)

Nếu những điều trên đều không đúng thì bạn được quyền đưa ra kết luận của mình. Hãy xem qua ví dụ sau đây để hiểu rõ hơn về điều này:

Trước khi tôi đưa ra cảnh báo bạn có thể chết trên giường vì ăn phô mai, tôi bắt buộc phải kiểm tra rằng những điều sau đây là không đúng:

  • Hoàn toàn trùng hợp ngẫu nhiên (Complete coincidence) - Liệu có khả năng rằng rất nhiều tập dữ liệu đã được so sánh và một số dữ liệu bị ràng buộc là tương tự nhau không? Tại sao không? Đó chính xác là điều mà Tyler Vigen đã làm! Trùng hợp ngẫu nhiên là điều hoàn toàn có thể xảy ra.
  • Sự đảo ngược nhân quả (Reverse causation) - Là X gây ra Y hay Y gây ra X? Liệu có thể nào chúng ta đang nghĩ sai hướng không? Ví dụ, có thể là người thân của bạn, trong sự đau buồn vì cái chết trên giường ngủ của bạn, đã ăn một lượng lớn phô mai để tự an ủi mình? Không, khả năng này thật sự rất khó xảy ra. Hãy bỏ qua giả thiết này.
  • Nguyên nhân chung (Joint causation) - Có thể nào có một yếu tố chung thứ ba đằng sau cả hai yếu tố trên không? Có thể việc giàu hơn làm cho bạn khỏe mạnh hơn (vì vậy bạn không chết vì những thứ như suy dinh dưỡng), và cũng khiến bạn ăn nhiều phô mai hơn? Điều này nghe có vẻ rất hợp lý. Đúng, giả thiết này có khả năng xảy ra.
  • Tính tuyến tính (Linearity) - Liệu chúng ta có đang so sánh hai xu hướng tuyến tính không? Một xu hướng tuyến tính là một tỉ lệ tăng trưởng hoặc suy giảm ổn định. Bất kỳ hai số liệu nào gần như tuyến tính theo thời gian sẽ có mối tương quan rất chặt chẽ với nhau về mặt thống kê. Trong biểu đồ ở trên, cả hai số liệu thống kê của chúng ta đều có xu hướng tăng lên. Nếu biểu đồ được vẽ với các tỷ lệ khác nhau, trông chúng có vẻ hoàn toàn không liên quan. Nhưng bởi vì cả hai đều có tỷ lệ ổn định, chúng vẫn có tương quan rất tốt. Đúng, mọi việc có vẻ là như vậy.
  • Khả năng ứng dụng rộng rãi (Broad applicability) - Có khả năng mối quan hệ này chỉ tồn tại trong một số tình huống thích hợp nhất định, hay ít nhất, không phải trong kịch bản thích hợp của tôi? Có lẽ vậy. Ví dụ, có rất nhiều người ăn phô mai, và điều đó là đủ để tạo ra sự tương quan này, bởi vì có quá ít trường hợp tử vong bất hạnh khác liên quan đến ga trải giường? Vậy thì khả năng này cũng có vẻ khả thi.

Tổng kết lại, chúng ta có 4 câu trả lời “Có” và một câu trả lời “Không” cho 5 lần kiểm tra trên.

Nếu ví dụ của bạn không nhận được 5 câu trả lời “Không” từ 5 lần kiểm tra trên thì nó đã thất bại, và bạn không thể nói rằng nghiên cứu đã chỉ ra rằng việc tiêu thụ nhiều phô mai có thể dẫn tới tử vong.

Một quá trình tương tự nên áp dụng cho các nghiên cứu điển hình, đó là một dạng tương quan khác - sự tương quan giữa những thay đổi bạn đang thực hiện và những việc tốt (hoặc xấu) đang xảy ra. Ví dụ, hãy hỏi:

  • Tôi đã loại trừ các yếu tố khác chưa (ví dụ: nhu cầu bên ngoài, tính thời vụ, các lỗi mà đối thủ cạnh tranh mắc phải)?
  • Lưu lượng truy cập tăng lên vì điều mà tôi đã cố gắng làm hay tôi đã vô tình cải thiện một số yếu tố khác cùng lúc đó?
  • Có phải điều này chỉ hiệu quả với một hoàn cảnh cụ thể duy nhất của khách hàng/dự án?

Điều này đặc biệt khó khăn đối với SEO, bởi vì chúng ta hiếm khi có dữ liệu về đặc tính này, nhưng tôi đề xuất một cặp câu hỏi bổ sung để giúp bạn xác định những nguy cơ tiềm ẩn này:

  • Nếu tôi là Google, tôi có làm điều này không?
  • Nếu tôi là Google, tôi có thể làm điều này không?

Lưu lượng truy cập trực tiếp như một yếu tố xếp hạng vượt qua thử nghiệm “có thể”, nhưng chỉ vừa đủ - Google có thể sử dụng dữ liệu từ Chrome, Android hoặc ISP, nhưng nó rất sơ sài. Tuy nhiên, nó không thực sự vượt qua thử nghiệm “sẽ” - Google dễ dàng sử dụng lưu lượng truy cập tìm kiếm có thương hiệu hơn, điều này sẽ trả lời cùng một câu hỏi mà bạn có thể trả lời bằng cách so sánh các mức lưu lượng truy cập trực tiếp (ví dụ: mức độ phổ biến của website này?).

2. Thiếu bối cảnh cụ thể

Nếu tôi nói với bạn rằng lưu lượng truy cập của tôi tăng 20% so với tuần trước, bạn sẽ nói gì? Xin chúc mừng?

Vậy nếu nó cũng tăng 20% vào cùng kỳ năm ngoái thì sao?

Nếu tôi nói với bạn rằng nó đã tăng 20% hàng năm, cho đến tận bây giờ?

Thật buồn cười khi một bối cảnh nhỏ hoàn toàn có thể thay đổi điều này. Đây là một vấn đề khác với các trường hợp điển hình (case study) và “người anh em xa” của nó, phép phân tích lưu lượng truy cập sụt giảm.

Nếu chúng ta thực sự muốn hiểu điều gì đó liệu có đáng ngạc nhiên không, tích cực hay tiêu cực, chúng ta cần so sánh nó với mong đợi của chúng ta, và sau đó tìm ra độ lệch so với kỳ vọng “thông thường”. Nếu điều này bắt đầu nghe giống như những số liệu thống kê, thì đó bởi nó chính là số liệu thống kê! Quả thực, tôi đã viết về một cách tiếp cận thống kê để đo lường các phương thức thay đổi vào năm 2015.

Tuy nhiên, nếu bạn muốn lười biếng, một quy tắc tốt đơn giản là thu nhỏ màn hình và thêm vào dữ liệu của những năm trước đó. Và nếu ai đó cho bạn xem dữ liệu đã được phóng to một cách đáng ngờ, bạn có thể sẽ thấy hoài nghi một chút.

3. Tin tưởng vào các công cụ

Bạn có đưa ra quyết định đầu tư hàng triệu đô la vào việc kinh doanh dựa trên một con số mà đối thủ cạnh tranh của bạn có thể thao túng theo ý muốn không? Vâng, rất có thể bạn đang phạm vào sai lầm đó, và con số bạn lấy là từ Google Analytics. Tôi đã từng nhiều lần đề cập đến vấn đề này, nhưng có một số vấn đề lớn xảy ra với hầu hết các nền tảng phân tích hiện hành:

  • Chúng dễ dàng tác động ra bên ngoài như thế nào
  • Cách chúng tùy ý nhóm số lượt truy cập với các phiên (session)
  • Mức độ dễ bị tổn hại đối với trình chặn quảng cáo
  • Trên số liệu mẫu, nó hiệu quả tới đâu và thông tin này rõ ràng đến mức nào

Ví dụ: bạn có biết rằng API (Giao diện lập trình ứng dụng) của Google Analytics phiên bản 3 có thể lấy nhiều mẫu dữ liệu trong khi nói với bạn rằng dữ liệu chưa được lấy mẫu, cao hơn một lượng lưu lượng nhất định (~ 500.000 trong phạm vi ngày) không?

Các vấn đề tương tự xảy ra với nhiều công cụ “Phân tích tìm kiếm” (Search Analytics) khác. Bạn có biết rằng hầu hết các nền tảng theo dõi xếp hạng báo cáo các thứ hạng hoàn toàn không giống nhau? Hay thực tế là các từ khóa được nhóm bởi Google (và các công cụ như SEMRush và STAT) cũng không tương đương và không nhất thiết phải có số lượng trích dẫn?

Điều quan trọng là hiểu được điểm mạnh và điểm yếu của công cụ mà chúng ta sử dụng để ít nhất biết rằng khi nào các công cụ này đang hướng chính xác (như thông tin chi tiết của họ hướng dẫn bạn đi đúng hướng), ngay cả khi không hoàn toàn chính xác. Tất cả những gì tôi có thể đề nghị ở đây là nâng cao kỹ năng trong SEO (hoặc bất kỳ kênh kỹ thuật số nào khác). Tức là bạn phải hiểu được cơ chế đằng sau các nền tảng đo lường của bạn.

Một trong những giải pháp phổ biến nhất cho vấn đề gốc là kết hợp nhiều nguồn dữ liệu, nhưng…

4. Kết hợp nguồn dữ liệu

Có rất nhiều nền tảng trên mạng sẽ “hiển thị (not provided)” - những từ khóa/cụm từ khóa bị ẩn đi bởi Google vì lí do bảo mật, bằng cách kết hợp từ hai dữ liệu trở lên:

  • Analytics (dịch vụ thu thập dữ liệu về website)
  • Search Console (dịch vụ dành cho quản trị web)
  • AdWords (dịch vụ khai thác quảng cáo của Google thực hiện trên công cụ tìm kiếm và các website trong hệ thống liên kết)
  • Rank tracking (công cụ theo dõi thứ hạng)

Vấn đề ở đây là, trước hết, những nền tảng này không có định nghĩa tương đương, và thứ hai, trớ trêu thay, (not provided) có xu hướng phá vỡ chúng.

Trước tiên, hãy giải quyết các định nghĩa, hãy xem ví dụ một trang đích có kênh riêng sau đây:

  • Trong Search Console, các báo cáo này được báo cáo là lượt nhấp chuột và có thể dễ bị ảnh hưởng bởi các mẫu nặng và vô hình gây ra khi nhiều thứ (ví dụ: từ khóa và trang) hoặc bộ lọc được kết hợp.
  • Trong Google Analytics, các báo cáo này được báo cáo bằng nhấp chuột không trực tiếp cuối cùng, có nghĩa là lưu lượng truy cập không phải trả tiền của bạn bao gồm một loạt phiên (session) trực tiếp, thời gian tiếp tục vào giữa phiên, v.v.
  • Trong AdWords, hầu hết báo cáo sử dụng nhấp chuột AdWords cuối cùng và chuyển đổi có thể được xác định khác nhau. Ngoài ra, khối lượng từ khóa được nhóm, như được tham chiếu ở trên.
  • Rank tracking là vị trí cụ thể và không nhất quán, như được tham chiếu ở trên.

Mặc dù nó có thể không chính xác, nhưng ít nhất bạn cũng có thể nhận được một số dữ liệu định hướng hữu ích về những giới hạn này. Tuy nhiên, thế còn về "(not provided)" ...

Hầu hết các trang đích của bạn nhận lưu lượng truy cập từ nhiều hơn một từ khóa. Rất có thể một số từ khóa này chuyển đổi tốt hơn các từ khóa khác, đặc biệt nếu chúng được gắn thương hiệu, có nghĩa là ngay cả mô hình tỷ lệ nhấp chuột kỹ lưỡng nhất cũng sẽ không giúp ích cho bạn. Vậy làm cách nào để bạn biết từ khóa nào có giá trị?

Câu trả lời hay nhất là khái quát hóa dữ liệu AdWords cho những từ khóa đó, nhưng rất có thể bạn không có dữ liệu phân tích cho tất cả các sự kết hợp của từ khóa và trang đích. Về cơ bản, các công cụ báo cáo về điều này tạo ra một giả định rất táo bạo rằng một trang nhất định chuyển đổi giống hệt nhau cho tất cả các từ khóa. Một số trang minh bạch hơn về điều này so với số khác.

Một lần nữa, điều này không có nghĩa là những công cụ này không có giá trị - bạn chỉ cần hiểu và sử dụng chúng một cách cẩn thận. Cách duy nhất bạn mà bạn có thể điền vào những khoảng trống một cách đáng tin cậy được tạo bởi “not provided” sẽ khiến bạn phải tiêu tốn rất nhiều cho các tìm kiếm có trả tiền để có được khối lượng, tỷ lệ chuyển đổi và tỷ lệ thoát ước tính thích hợp cho tất cả từ khóa của bạn, và thậm chí sau đó, bạn vẫn chưa thể sửa được các vấn đề về định nghĩa không nhất quán.

Một “tác dụng phụ” không mấy dễ chịu: Xếp hạng trung bình

Tôi vẫn vẫn thấy điều này một cách thường xuyên thấy điều này. Có ba câu hỏi:

1. Bạn có quan tâm nhiều hơn đến việc mất thứ hạng cho mười truy vấn khối lượng rất thấp (10 tìm kiếm một tháng hoặc ít hơn) so với một truy vấn được nhiều người tìm kiếm thường xuyên (hàng triệu)? Nếu câu trả lời không phải là “có, tôi hoàn toàn quan tâm hơn đến mười truy vấn có khối lượng tìm kiếm thấp”, thì chỉ số này không dành cho bạn và bạn nên xem xét chỉ số hiển thị dựa trên ước tính tỷ lệ nhấp.

2. Khi bạn bắt đầu xếp hạng ở mức 100 cho từ khóa mà bạn không xếp hạng trước đây, điều này có khiến bạn không hài lòng không? Nếu câu trả lời không phải là “có, tôi ghét xếp hạng cho các từ khóa mới”, thì chỉ số này không dành cho bạn - vì điều đó sẽ làm giảm xếp hạng trung bình của bạn. Tất nhiên, bạn có thể coi tất cả các từ khóa không xếp hạng là vị trí 100, như một số công cụ cho phép. Nhưng giảm 2 vị trí xếp hạng trung bình có thực sự là cách tốt nhất để thể hiện 1/50 các trang đích của bạn đã bị cấm index (tên miền đã bị loại bỏ hoàn toàn khỏi Google)? Một lần nữa, hãy sử dụng chỉ số khả năng hiển thị.

3. Bạn có thích so sánh hiệu suất của mình với đối thủ cạnh tranh không? Nếu câu trả lời không phải là “không”, thì chỉ số này không dành cho bạn. Đối thủ cạnh tranh của bạn có thể có nhiều hoặc ít từ khóa hoặc cụm từ khóa được xếp hạng có gắn thương hiệu hơn và điều này sẽ làm sai lệch so sánh. Một lần nữa, hãy sử dụng chỉ số hiển thị.

Kết luận

Hy vọng rằng bạn thấy bài viết này hữu ích. Tôi sẽ tóm tắt lại các ý chính như sau:

  • Phân tích các mối tương quan và các trường hợp điển hình bằng cách xem liệu bạn có thể giải thích chúng như là sự trùng hợp hay không, như là sự đảo ngược nhân quả, như là nguyên nhân chung, thông qua tham chiếu đến yếu tố thứ ba liên quan lẫn nhau hoặc thông qua khả năng ứng dụng thích hợp.
  • Đừng nhìn vào những thay đổi về lưu lượng truy cập mà không xem xét ngữ cảnh - bạn sẽ dự báo điều gì cho giai đoạn này và với mức độ sai sót như thế nào?
  • Hãy nhớ rằng các công cụ chúng ta sử dụng đều có những hạn chế và hãy nghiên cứu về cách chúng tác động đến các con số mà chúng hiển thị. “Con số này được tạo ra như thế nào?” là một thành phần quan trọng trong “Con số này có ý nghĩa gì?”
  • Nếu bạn kết thúc việc kết hợp dữ liệu từ nhiều công cụ, hãy nhớ tìm ra mối quan hệ giữa chúng - xử lý thông tin này theo hướng chứ không phải theo sự chính xác.

Hãy cho SAGA.VN biết những lỗi phân tích dữ liệu mà bạn gặp phải bằng cách để lại chia sẻ dưới đây.

Nguồn : Theo SAGA.VN
Thu Giang