Lê Ngọc Khả Nhi – 2023-10-26 16:55:11
REAPPRAISED là một checklist của tờ báo Nature đề xuất, nhằm mục tiêu đánh giá về sự chính trực (Integrity) của một công bố khoa học. Nó gồm có 11 mục R: Research governance, E: Ethics, A: Authorship, P: Productivity,P: Plagiarism, R: Research conduct, A: Analyses and methods, I: Image manipulation, S: Statistics and data, E: Errors, D: Data duplication and reporting. Trong giới hạn về chuyên môn và kinh nghiệm của mình, tôi muốn bàn về những tiêu chí trong mục S – Thống kê và dữ liệu của bảng kiểm.
Nhận xét đầu tiên của tôi, đó là hầu hết tiêu chí về thống kê trong bảng kiểm này đang dựa trên những nhận định chủ quan và cảm tính, thể hiện qua các từ như impossible, implausible, unusual, excessively…
Sau đây tôi sẽ phân tích chi tiết từng tiêu chí, bằng 3 câu hỏi: chúng dựa trên lý lẽ nào, có xác đáng không ? Có sơ hở hay nhược điểm nào không nếu muốn phát hiện hành vi gian lận có chủ đích ? Chúng có thể áp dụng được trên thực tế trong ngành y khoa hay không ?
Tiêu chí : subgroup means incompatible with those for the whole cohort?
Tiêu chí này dựa trên lý luận rằng khi chọn một mẫu nhỏ từ một mẫu lớn hơn, đặc tính phân phối của chúng phải tương đồng với nhau. Tuy nhiên, trong nghiên cứu y học, subgroup có thể mang rất nhiều ý nghĩa chứ không đơn giản là chọn mẫu ngẫu nhiên, ví dụ các bệnh viện, địa phương khác nhau trong một nghiên cứu đa trung tâm, một thể lâm sàng đặc biệt, người già, nữ giới, … Lúc này – tiêu chí trên trở nên rất buồn cười – vì hiển nhiên phải có sự khác biệt giữa nhóm nhỏ và quần thể. Ngay cả khi ghi nhận được sự khác biệt, cũng có thể hoàn toàn do ngẫu nhiên, không nhất thiết phải là dấu hiệu nghi ngờ hành vi sai trái. Mặt khác, chính hành vi ngụy tạo dữ liệu bằng phương pháp mô phỏng lại đảm bảo rất tốt rằng phân phối sẽ tương tự nhau cho mọi mẫu.
Tiêu chí : reported summary data compatible with the reported range? : đây là một tiêu chí xác đáng, dữ liệu của một đại lượng trong nghiên cứu hiện thời phải tương hợp với giới hạn của đại lượng đó trong tự nhiên, như từng được báo cáo trong y văn.
Tuy nhiên, không phải lúc nào tiêu chí này cũng có thể được kiểm tra, nó có thể bị gây nhiễu bởi sự không nhất quán về hình thức trình bày thống kê mô tả giữa các nghiên cứu trong y văn, ví dụ có người dùng Mean+/-SD, có người dùng Median, IQR, hoặc khoảng phân vị 5-95, có người báo cáo min/max. Nó cũng không thể áp dụng nếu quần thể mục tiêu giữa các nghiên cứu là khác nhau, ví dụ một số nghiên cứu tập trung khảo sát một bộ phận nhỏ trong các thể lâm sàng. Tiêu chí cũng không áp dụng được cho trường hợp những nghiên cứu tiên phong (mà vai trò của sự trung thực khách quan càng quan trọng hơn), những bệnh lý hiếm gặp …
Tiêu chí: summary outcome data identical across study groups?
Tiêu chí này dựa trên lý lẽ rằng luôn có sai biệt ngẫu nhiên giữa 2 mẫu khác nhau, nên việc 2 phân nhóm có các chỉ số thống kê mô tả giống y như nhau là điều bất thường, tuy nhiên nó có thể là sự sai lầm khi cắt dán thủ công bảng kết quả (trường hợp này rất hiếm gặp trên thực tế). Mặt khác, tiêu chí này chỉ áp dụng tốt cho những biến định lượng, nhưng có thể vô íchcho các biến định tính (kết quả thống kê thường là tần suất hay tỷ lệ, sự khác biệt sẽ khó nhận ra hơn).
Tiêu chí: the baseline data excessively similar or different
between randomized groups ? Về mặt lý thuyết, tiêu chí này rất hợp lý, vì hành động chọn mẫu/phân nhóm ngẫu nhiên sẽ dẫn đến phân bố tương tự nhau cho tất cả những yếu tố nền giữa nhóm can thiệp và đối chứng, nhờ đó triệt tiêu được hiệu ứng gây nhiễu đối với chỉ định điều trị. Nếu vẫn còn sự tương phản các biến baseline giữa 2 nhóm, tức là randomization chưa hiệu quả, hoặc dữ liệu đã bị can thiệp vô tình hay cố ý, tạo ra selection bias.
Tuy nhiên, người ta quên rằng không chỉ có randomization mới tạo được hiệu quả phân bố tương đồng giữa 2 nhóm, mà data matching cũng làm được. Một cao thủ về thống kê có thể chủ động ngụy tạo dữ liệu theo 3 bước sau đây: 1) Chọn một mẫu dư thừa với đa số trường hợp có outcome xấu cho nhóm đối chứng, 2) Chọn một mẫu dư thừa mà hầu hết có outcome tốt cho nhóm can thiệp, 3) Tiến hành quy trình data matching : sau khi matching, tất cả baseline variable vẫn đảm bảo phân phối y như nhau giữa 2 nhóm. Mọi nghi ngờ về ngụy tạo dữ liệu đều bị xóa sạch.
Tiêu chí : discrepancies between data reported in figures, tables, and text? Đây là tiêu chí rất tốt, nó dựa trên sự hiển nhiên về tính nhất quán về thông tin giữa 3 hình thức trình bày : văn bản, bảng kết quả và biểu đồ. Tuy nhiên, nó cũng là tiêu chí khó áp dụng nhất, bởi vì đánh giá được tính nhất quán này đòi hỏi người bình duyệt sự tập trung theo dõi cao độ (trong bản thảo, biểu đồ và bảng thường tách biệt khỏi văn bản. Đôi khi, dấu hiệu bất thường cần sự phân tích rất tinh tế kèm theo kiến thức, kinh nghiệm chuyên môn. Ví dụ, kết quả quá tốt về hiệu năng của một mô hình Machine learning là bất thường cho một classification task khó – và sự khó khăn này thể hiện qua biểu đồ thăm dò dữ liệu. Tương tự, cần sự quan sát rất tinh tế để nhận ra một vài điểm trên biểu đồ tán xạ đã bị bôi xóa, so với con số trong bảng thống kê mô tả, mâu thuẫn giữa biểu đồ boxplot và bảng kết quả,… cần kiến thức về thống kê để nhận diện những suy luận, diễn giải sai lầm.
Tuy nhiên, nếu sự không nhất quán có tồn tại đi nữa, thì nhiều khả năng chỉ là do sai sót không cố ý (hạn chế về kiến thức thống kê, nhầm lẫn vô ý về các bộ dataset trong các công đoạn vẽ biểu đồ, thống kê). Nếu người viết văn bản không tự mình làm phân tích dữ liệu, nguy cơ không nhất quán càng cao.
Nếu hành vi cố ý gian lận, ngụy tạo dữ liệu có xảy ra, kết quả sẽ hoàn toàn ngược lại, vì kẻ nói dối thường xây dựng một câu chuyện rất mạch lạc và nhất quán, không bao giờ để lọt sơ hở có thể phát hiện ra được. Để đề phòng, họ còn có thể chủ động dùng biểu đồ Boxplot, barplot thay vì scatter plot để không trình bày tường minh các điểm dữ liệu cá thể, họ chỉ trình bày giá trị p nhưng không công bố kết quả thô của mô hình… Không thiếu những bài báo tràn ngập bảng nhưng không có hình ảnh nào cả.
Tiêu chí : statistical test results compatible with reported data?
Tiêu chí này nhấn mạnh đến tính hợp lý và tương thích giữa kết quả thống kê (suy diễn) và bản chất của dữ liệu, đặc tính phân phối của dữ liệu. Tuy có vẻ hợp lý, nó hoàn toàn vô dụng trên thực tế. Bởi vì, trong hầu hết bài báo khoa học thông tin về phương pháp thống kê thường bị giản lược đến mức tối thiểu. Với việc sử dụng những thủ thuật như phân tích hồi quy với cấu trúc biến khác nhau, hiệu chỉnh cho hiệp biến, trọng số cho đến khi đạt kết quả positive…, hoàn toàn có thể xảy ra tình huống kết quả khác nhau giữa thống kê mô tả đơn giản và suy luận thống kê bằng mô hình, nhưng vẫn rất hợp lý về mặt khoa học.
Ngay cả khi có sai biệt, có thể do sai lầm hoặc thiếu kiến thức hơn là hành vi gian lận có chủ ý.
Tiêu chí : Are any data implausible ? ở đây, implausible là một khái niệm chủ quan, trên thực tế những giá trị outliers hay sự kiện hiếm vẫn có thể phát sinh và được ghi nhận.
Tiêu chí : Are any of the outcome data unexpected outliers? Việc xuất hiện outlier trong dữ liệu có khả năng làm sai lệch phân tích thống kê, điều này đúng, nhưng thường không gợi ý hành vi gian lận nào cả. Như đã nói, một phương thức ngụy tạo dữ liệu phổ biến và khó phát hiện nhất, là dùng quy trình mô phỏng theo một quy luật cho trước, nó không bao giờ sinh ra outliers cả. Đôi khi, người ta gian lận bằng cách chủ động loại bỏ hết các giá trị outlier cực thấp hay cực cao cho 1 phân nhóm để đạt hiệu ứng điều trị có ý nghĩa, hoặc trong các nghiên cứu kiểm định thiết bị xét nghiệm, nếu measurement bias quá đẹp và không có outliers mới là điều bất thường đáng ngờ. Một sô thủ thuật khác có thể ngụy tạo phân phối đối xứng, ví dụ cộng thêm một giá trị ngẫu nhiên rất nhỏ có phân phối chuẩn cho mỗi trường hợp, hoán chuyển dữ liệu …
Tiêu chí : Are the frequencies of the outcomes unusual? Và: Are any data outside the expected range for sex, age, or disease?
Một lần nữa – unusual là khái niệm chủ quan. Tiêu chí này nhắm đến các nghiên cứu lâm sàng mà kết cục là một sự kiện. Nếu tần suất phát sinh sự kiện đó quá cao hay quá thấp ở một phân nhóm điều trị hay trong quần thể, so với xác suất thường gặp, đó là dấu hiệu selection bias hoặc ngụy tạo chủ ý. Tuy nhiên, tiêu chí này cần áp dụng cho hoàn cảnh cụ thể, và cần kinh nghiệm chuyên môn. Nó không áp dụng được cho bệnh lý hiếm, các tai biến lâm sàng hiếm (hoặc ngược lại, rất phổ biến cục bộ ở một địa phương, do đặc thù về kinh tế, xã hội và chất lượng chăm sóc y tế).
Tiêu chí : Are there any discrepancies between the values for percentage and absolute change? Tiêu chí này vô dụng, vì chỉ có thể áp dụng cho outcome định lượng, và khi tác giả báo cáo hiệu ứng can thiệp bằng cả hai hình thức : sự thay đổi tuyệt đối và tương đối. Nó không áp dụng được cho outcome định tính, khi hiệu ứng đo bằng khác biệt xác suất, Odds-ratio, Hazard ratio… vv
Are there any discrepancies between reported data and participant inclusion criteria? : Nếu có điều này, đó là sai lầm hết sức ngớ ngẩn, hoặc sai sót trong xét nghiệm, sai lầm khi trả lời cho các bảng câu hỏi tự khai báo hơn là một hành vi gian lận.
Tiêu chí : variances in biological variables surprisingly consistent over time?
Tiêu chí này chỉ áp dụng được cho nghiên cứu trường diễn và có sự khảo sát lặp lại theo thời gian. Nếu một đại lượng ổn định và bất biến thì có thể là điều bất thường, gợi ý hành vi ngụy tạo dữ liệu. Tuy nhiên, không hiếm những thông số sinh lý, sinh hóa hoặc tiến trình bệnh lý ổn định nhưng không thay đổi quá lớn, hoặc thời gian theo dõi không đủ dài để phát hiện sự thay đổi ý nghĩa. Khi đặt ra tiêu chí này, người ta đã đánh giá quá thấp khả năng ngụy tạo dữ liệu của chuyên viên thống kê, họ hoàn toàn có thể mô phỏng bất cứ mô thức diễn biến nào nếu họ muốn điều đó, bao gồm cả dao động ngẫu nhiên, hoàn toàn tự nhiên và không có cách nào phát hiện được.
Kết luận : Bảng kiểm này là một xuất phát điểm tốt giúp cho người làm nghiên cứu cẩn trọng và có trách nhiệm hơn khi báo cáo kết quả nghiên cứu. Nhưng rất tiếc, nó có quá nhiều sơ hở, nhiều yếu tố cảm tính chủ quan, và quá xem thường khả năng của những chuyên gia thống kê một khi đã có ý đồ, hành vi gian lận, ngụy tạo dữ liệu. Vì thế, nó sẽ không có hiệu quả đáng kể nhằm phát hiện những hành vi gian lận có chủ đích.
Tự bản thân con người phải giữ được lương tâm, danh dự và trách nhiệm. Quyền lực càng lớn, càng phải cẩn trọng với cám dỗ để không đi vào tà đạo.
Statistics:
Likes: 75, Shares: 11, Comments: 6
Like Reactions: 68, Haha Reactions: 0, Wow Reactions: 0, Love Reactions: 7, Sad Reactions: 0, Angry Reactions: 0