Khi các quyết định tiếp thị dựa trên phân tích trang web, độ chính xác rất quan trọng.
Tuy nhiên, Google Analytics và các nền tảng phân tích khác lấy mẫu dữ liệu để
tạo báo cáo, đôi khi có thể không phản ánh đúng xu hướng dữ liệu thực tế.
Trong bài viết này, chúng ta sẽ tìm hiểu cách Google Analytics 4 sử dụng lấy mẫu dữ liệu, giới hạn hạn ngạch thay đổi và lý do tại sao dữ liệu được lấy mẫu vẫn có thể gây ra vấn đề cho các thuộc tính web có khối lượng lớn.
Lấy mẫu dữ liệu là gì?
Lấy mẫu dữ liệu là một kỹ thuật phân tích thống kê sử dụng một tập hợp dữ liệu nhỏ hơn để phân tích và xác định xu hướng trong một tập dữ liệu lớn hơn.
Công cụ này có thể hữu ích khi việc thu thập toàn bộ dữ liệu trở nên khó khăn, chẳng hạn như trong các cuộc khảo sát chính trị, hoặc khi dữ liệu quá lớn khiến việc chuẩn bị và tính toán toàn bộ dữ liệu trở nên khó khăn.
Đây là thông lệ tiêu chuẩn trong nhiều ngành công nghiệp, nơi mà một trong hai vấn đề này gây ra vấn đề. Ví dụ, Gallup không thể khảo sát toàn bộ dân số Hoa Kỳ, vì vậy họ sử dụng các mẫu đại diện thay thế.
Để đảm bảo mẫu mang tính đại diện, hãy cẩn thận lựa chọn các đối tượng tạo thành mẫu. Bước này rất quan trọng để tránh sai lệch trong lựa chọn dữ liệu (sẽ nói rõ hơn ở phần sau).
Tại sao Google Analytics sử dụng phương pháp lấy mẫu dữ liệu?
Google Analytics giới hạn lượng dữ liệu xử lý cho báo cáo, đặc biệt là đối với người dùng miễn phí. Nói một cách đơn giản, công ty làm như vậy để tiết kiệm tài nguyên điện toán đám mây (có thể phải đối mặt với chi phí ngày càng tăng khi ngày càng nhiều tài nguyên áp dụng AI).

Tập dữ liệu càng lớn, càng cần nhiều tài nguyên tính toán để hoàn thành các phép tính cho báo cáo. Do đó, Google Analytics có xu hướng sử dụng dữ liệu đầy đủ cho các báo cáo ngắn hạn, ít dữ liệu hơn nhưng sử dụng mẫu cho các phân tích chuyên sâu hơn.
Ví dụ, hãy xem báo cáo cơ bản này từ một trang web có lưu lượng truy cập hạn chế. Dấu kiểm cho biết thẻ "chưa được lấy mẫu" và sử dụng 100% dữ liệu khả dụng. (Lưu ý biểu tượng báo cáo màu xanh lá cây — đối với báo cáo đã lấy mẫu, biểu tượng này có màu đỏ.)

Nhưng đối với các thuộc tính web có lưu lượng truy cập lớn và các báo cáo phức tạp hơn như phân tích phễu hoặc phân tích nhóm, kết quả gần như chắc chắn sẽ được lấy mẫu. Mọi thứ thậm chí còn tệ hơn khi so sánh nhiều tập dữ liệu, ví dụ: hai phân khúc người dùng với nhau hoặc với một đường cơ sở. Báo cáo phễu 12 tháng trong GA có thể chỉ sử dụng 48,3% dữ liệu khả dụng, như được hiển thị bên dưới.
Phân tích càng nâng cao thì GA và các công cụ phân tích khác càng có khả năng đưa ra những kết quả không phản ánh toàn cảnh.
Những thay đổi đối với việc lấy mẫu dữ liệu trong Google Analytics 4
Trong Universal Analytics, trước khi ngừng hỗ trợ, kích thước mẫu tối đa cho các báo cáo chưa được lấy mẫu là 500.000 phiên người dùng. Nếu một trang web nhận được hơn vài nghìn phiên người dùng mỗi tháng, điều này có thể nhanh chóng trở thành vấn đề.
Với sự thay đổi sang GA4, ngưỡng lấy mẫu hiện được đặt thành 10 triệu "sự kiện". Thoạt nghe có vẻ như đây là một nâng cấp lớn. Tuy nhiên, vì các sự kiện về cơ bản là các hàng dữ liệu riêng lẻ, nên điều quan trọng cần lưu ý là mỗi phiên có thể đại diện cho hàng chục sự kiện riêng biệt, tùy thuộc vào báo cáo.
Vì vậy, lưu lượng truy cập không phải là yếu tố hạn chế duy nhất. Càng thêm nhiều chiều thứ cấp, tập hợp sự kiện càng lớn (theo cấp số nhân). Điều này thường có nghĩa là một báo cáo ban đầu sử dụng dữ liệu chưa lấy mẫu sẽ bắt đầu sử dụng dữ liệu đã lấy mẫu nếu chạy lại để so sánh các phân đoạn hoặc thêm sắc thái.
Google đã tuyên bố rằng con số 10 triệu chỉ áp dụng cho "báo cáo tiêu chuẩn". Vì vậy, ngay cả khi số lượng sự kiện ít hơn nhiều, các báo cáo phức tạp vẫn sẽ nhanh chóng dựa vào dữ liệu được lấy mẫu. Ngoài ra, thông tin công khai về phương pháp lấy mẫu hoặc cách GA chọn mẫu ngẫu nhiên còn rất hạn chế.
Tóm lại? Việc lấy mẫu dữ liệu vẫn ảnh hưởng đến các bất động sản có lưu lượng truy cập cao và các nhà tiếp thị sử dụng báo cáo nâng cao. Việc sử dụng các kích thước hoặc sự kiện tùy chỉnh là một yếu tố hạn chế khác.
Đọc thêm : 10 hạn chế chính của Google Analytics mà bạn nên biết
Tại sao việc lấy mẫu dữ liệu có thể là một vấn đề đối với phân tích web
Giải thích chính thức của Google Analytics về lý do sử dụng phương pháp lấy mẫu dữ liệu lấy ví dụ về việc ước tính số lượng cây trên một khu vực rộng lớn bằng cách ngoại suy dữ liệu từ một mẫu Anh. Nếu có 800 cây trên một mẫu Anh và 100 mẫu Anh, tổng số cây ước tính trên khu đất sẽ vào khoảng 80.000 cây.
Điều này khá thiếu chân thực vì một người làm lâm nghiệp không cần dữ liệu chính xác tuyệt đối để đưa ra quyết định tiếp thị thông minh về tương lai của lô đất của họ. Hơn nữa, việc khảo sát trên không khu vực trước để đảm bảo tính tương đồng về chiều dài cũng rất dễ dàng. Điều này cho phép họ chọn một mẫu Anh cây đại diện chính xác cho phần còn lại của khu rừng.
Với phân tích web, việc tránh thiên vị trong lựa chọn mẫu và đại diện bình đẳng cho tất cả các nguồn dữ liệu và loại khách truy cập vào một trang web là một thách thức.

Cuối cùng, điều này có nghĩa là việc tìm kiếm một mẫu dữ liệu thực sự phản ánh hành vi trung bình của người dùng sẽ rất khó khăn. Nếu nền tảng phân tích chọn nhiều lượt truy cập từ một chương trình khuyến mãi cụ thể, nó có thể làm tăng hoặc giảm doanh số.
Và đó chỉ là một yếu tố duy nhất có thể ảnh hưởng đến độ chính xác của dữ liệu.
Biên độ sai số điển hình
Được rồi, dữ liệu đã được lấy mẫu, nhưng nó tệ đến mức nào? Trung bình, các báo cáo khá chính xác, nhưng mẫu càng nhỏ thì biên độ sai số điển hình càng lớn.
Mặc dù biên độ sai số có thể thấp tới 1%, nhiều người dùng nhận thấy tỷ lệ sai số có thể lên tới 30% đối với phạm vi nhỏ hơn , nhưng trung bình là khoảng 5%.

Điều này khiến việc tạo báo cáo chính xác cho một trang web có khối lượng truy cập lớn trở nên khó khăn, trong đó 10 triệu sự kiện chỉ chiếm một phần nhỏ trong lưu lượng truy cập hàng năm.
Đây không hẳn là tin tốt khi tỷ lệ lấy mẫu GA chỉ dưới 50% cho một báo cáo thường niên đơn giản. Và đó là còn chưa kể đến việc so sánh các phân khúc dài hạn (điều này sẽ bổ sung thêm nhiều biến số và sự kiện).
Và đó không phải là lý do duy nhất khiến Google Analytics có thể không chính xác như một số người nghĩ.
3 cách để giảm thiểu việc lấy mẫu dữ liệu trong Google Analytics
Bạn muốn báo cáo chính xác hơn? Để giảm thiểu việc lấy mẫu dữ liệu trong báo cáo Google Analytics cho các trang web có lưu lượng truy cập lớn, hãy sử dụng một trong ba phương pháp sau:
Giảm khung thời gian của báo cáo để tăng độ chính xác
Hầu hết người dùng có thể tránh việc lấy mẫu bằng cách tập trung vào một khoảng thời gian ngắn hơn. Việc giảm phạm vi ngày có thể sẽ đưa tổng số sự kiện xuống dưới giới hạn lấy mẫu dữ liệu, cho phép họ làm việc với dữ liệu thực tế.

Đây là một ý tưởng hay để ước tính chính xác các xu hướng ngắn hạn, chẳng hạn như tác động của một chiến dịch mới. Tuy nhiên, đây không phải là giải pháp lâu dài.
Điều này khiến việc tạo ra các báo cáo dài hạn đáng tin cậy trở nên rất tốn công sức. Ví dụ, nếu độ chính xác dữ liệu 100% chỉ có thể đạt được trong báo cáo 30 ngày, thì cần dữ liệu từ ba báo cáo cho một báo cáo quý duy nhất. Báo cáo thường niên thậm chí còn tốn kém hơn.
Ngoài ra, bất kỳ báo cáo nào dựa trên phân khúc đều cần phải được thực hiện thủ công vì chúng nhanh chóng bắt đầu dựa vào dữ liệu lấy mẫu.
Chìa khóa cho các báo cáo chưa lấy mẫu là giữ chúng đơn giản và phạm vi ngày ngắn. (Nếu điều này nghe có vẻ trái ngược với phân tích kỹ lưỡng, thì đúng là vậy. Để có thông tin chi tiết, một tập dữ liệu lớn sẽ tốt hơn một tập dữ liệu nhỏ.)
Xuất dữ liệu sang các công cụ phân tích dữ liệu của bên thứ ba (vẫn còn hạn chế về rủi ro)
Việc xuất dữ liệu thô sang nền tảng phân tích dữ liệu của bên thứ ba có thể cung cấp toàn quyền kiểm soát việc có nên sử dụng lấy mẫu khi tạo báo cáo hay không.
Ví dụ, Google Data Studio và Google BigQuery không sử dụng tính năng lấy mẫu theo mặc định. (Một số người đam mê bảng tính thậm chí còn sử dụng Google Trang tính.)
Tuy nhiên, việc xuất dữ liệu cũng bị hạn chế ở phía GA, nên thật không may, đây không phải là giải pháp đáng tin cậy. Nếu có hơn một triệu sự kiện mỗi ngày, việc xuất dữ liệu sẽ dựa trên mẫu.
Tùy thuộc vào nền tảng, có thể có một giải pháp thay thế cho việc thu thập dần dữ liệu từ các yêu cầu ngắn hạn. Tuy nhiên, giải pháp này không đảm bảo hiệu quả, nên có lẽ không phải là giải pháp tốt nhất.
Nâng cấp lên Google Analytics 360 (và chọn “kết quả chi tiết hơn”)
Nâng cấp lên Google Analytics 360, phiên bản trả phí của GA, sẽ tăng giới hạn hạn ngạch dữ liệu lên 100 triệu sự kiện theo mặc định.
Chọn tùy chọn "kết quả chi tiết hơn" (nhấp vào biểu tượng hình khiên trong bất kỳ báo cáo nào ở chế độ xem khám phá hoặc trên bất kỳ thẻ nào ở góc trên bên phải) sẽ tăng giới hạn trên lên một tỷ sự kiện. Đối với tài khoản miễn phí, biểu tượng hình khiên này có dấu chấm than màu đỏ.
Tuy nhiên, bản nâng cấp này vẫn yêu cầu trả phí cho GA mà không giải quyết được bất kỳ vấn đề nào ngoài việc lấy mẫu dữ liệu.
Đọc thêm: GA360 so với GA4: Những khác biệt và thách thức chính
Tránh hoàn toàn việc lấy mẫu dữ liệu bằng cách chuyển sang một giải pháp thay thế đáng tin cậy
Nhiều giải pháp thay thế Google Analytics hoàn toàn tránh được vấn đề này bằng cách không sử dụng bất kỳ mẫu dữ liệu nào ngay từ đầu. Về cơ bản, điều này có thể mở ra thêm 20-50% dữ liệu, tùy thuộc vào tổng lưu lượng truy cập và độ phức tạp của báo cáo.
Và đây không phải là lợi ích duy nhất khi chuyển sang giải pháp thay thế đáng tin cậy và chính xác.
Vẫn còn những lo ngại về quyền riêng tư sau khi ra mắt GA4
Mặc dù Google Analytics 4 được phát hành để đáp ứng các quy định về quyền riêng tư ngày càng nghiêm ngặt, các cơ quan quản lý vẫn chưa hài lòng. Cụ thể, GA4 đã gặp nhiều vấn đề với GDPR và vẫn chưa tuân thủ theo mặc định.
Và việc bị phạt tiền không phải là vấn đề duy nhất. Nếu bị phát hiện vi phạm mà không chuẩn bị trước, có thể sẽ có lệnh thay đổi công cụ phân tích hoặc thay đổi hoàn toàn thiết lập GA4. Nếu một đội bóng đã mất nhiều tháng để chuyển đổi sang GA4, tình huống này là không mong muốn, đặc biệt là trong một chiến dịch quan trọng.
Giao diện người dùng trực quan hơn và báo cáo sâu sắc ngay khi xuất xưởng
Việc giải mã dữ liệu trong giao diện GA4 có khó khăn không? Đây là một trong những vấn đề lớn nhất mà các nhà tiếp thị và chủ cửa hàng thương mại điện tử thường gặp phải với GA4 .
Vai trò quan trọng của phân tích trang web là khám phá những thông tin chi tiết có ý nghĩa. Nó không nên giống như một câu đố hay bài tập trí não.

Với Matomo, bạn không cần phải xử lý ba loại tỷ lệ chuyển đổi khác nhau hoặc tạo báo cáo tùy chỉnh để hiểu rõ hơn về kênh bán hàng. Các báo cáo rõ ràng, dễ điều hướng và không cần lấy mẫu. Tuyệt vời!
Người dùng vẫn có tùy chọn tạo báo cáo tùy chỉnh, bảng thông tin và có thể xuất hầu hết mọi chế độ xem nếu cần phân tích chuyên sâu hơn.
Tiếp tục sử dụng các số liệu mà bạn biết và yêu thích
Matomo sử dụng các số liệu rõ ràng mà hầu hết các nhà tiếp thị và phân tích web đã quen thuộc khi sử dụng Google Analytics trong thập kỷ trước. Bao gồm:
- Lượt xem trang
- Các chuyến thăm duy nhất
- Tỷ lệ thoát
- Nguồn người dùng
Loại bỏ việc lấy mẫu dữ liệu bằng Matomo
Chuyển sang Matomo sẽ loại bỏ các vấn đề về lấy mẫu dữ liệu và độ chính xác (vì nó luôn sử dụng 100% dữ liệu để báo cáo) và cung cấp quyền sở hữu dữ liệu đầy đủ cũng như tuân thủ các quy định về quyền riêng tư nghiêm ngặt nhất thế giới.
Chưa kể, Matomo còn cung cấp quyền truy cập vào các tính năng phân tích hành vi như Bản đồ nhiệt, Kiểm tra A/B và Ghi lại phiên, tất cả đều trong cùng một nền tảng, nhằm cải thiện trải nghiệm của người dùng.
Sự kết hợp giữa các tính năng, độ tin cậy và quyền sở hữu dữ liệu hoàn chỉnh (không cần lấy mẫu) chính là lý do tại sao hơn 1 triệu trang web tin tưởng vào phân tích Matomo. Những thông tin chi tiết đáng tin cậy là nền tảng của tiếp thị kỹ thuật số hiệu quả.
Nguồn Matomo toàn cầu: https://matomo.org/blog/2024/10/google-analytics-sampling-why-it-matters-and-how-to-avoid-it/
Tham khảo thêm về Xhan Analytics tại: https://www.24h.com.vn/kham-pha-cong-nghe/matomo-xhan-analyitcs-da-co-mat-tai-thi-truong-viet-nam-c675a1684101.html
Tham khảo thêm về Xhan Analytics tại: https://www.nguoiduatin.vn/matomo-xhan-analytics-ra-mat-cong-cu-tri-tue-nhan-tao-xhan-ai-phan-tich-hieu-quang-quang-cao-google-ads-va-du-lieu-chuyen-sau-danh-cho-nha-quang-cao-duoc-tin-dung-tai-chau-au-va-hoa-ky-204250807103939092.htm