Lê Ngọc Khả Nhi – 2024-01-16 11:35:08
Vấn đề ngụy tạo và giả mạo dữ liệu nghiên cứu y học lâm sàng trong đào tạo sau đại học, và các giải pháp phòng tránh
Xin chào Anh Chị Em đồng nghiệp, cách đây vài hôm Nhi nhận được câu hỏi từ một người bạn – đặt ra nghi ngờ về kết quả của một luận án Tiến Sĩ, có dấu hiệu ngụy tạo/giả mạo dữ liệu. Sau khi xem xét thì Nhi cũng đồng ý. Từ kinh nghiệm trong cùng lĩnh vực, Nhi dễ dàng nhận ra đặc điểm phân phối của kết quả trong nhóm can thiệp và đối chứng hoàn toàn khác với thực tế, và kết quả điều trị này quá đẹp, đến mức không thể tin được. Khi tìm kiếm ngẫu nhiên một luận văn khác cùng chuyên khoa vài năm trước, Nhi bất ngờ khi lại phát hiện ra những dấu hiệu tương tự – kết quả của can thiệp điều trị đẹp một cách ngoạn mục và trái với thực tiễn. Như một giọt nước làm tràn ly, Trước kia Nhi đã nhiều lần nghe lời đồn về sự phổ biến của việc giả mạo dữ liệu và kết quả khi làm luận án, nhưng ít khi có bằng chứng xác thực, và cũng nghĩ là do định kiến mất lòng tin lẫn nhau giữa các đồng nghiệp. Từng phát hiện rải rác một vài luận văn có vấn đề, nhưng với tinh thần cảm thông cho đồng nghiệp – vì hiểu được nỗi khổ cực của nghề y và hoàn cảnh của những anh chị em mình, nhiều người trong đó có Nhi chọn im lặng thay vì công khai chúng ra. Nhưng hôm nay Nhi thực sự cảm thấy lo lắng và thấy cần phải viết bài này.
Hầu hết những dấu hiệu bất thường này xảy ra trong những nghiên cứu có mục tiêu đánh giá hiệu quả điều trị, mà một kết quả đẹp thường được kì vọng. Có khi, ngụy tạo dữ liệu chỉ để chứng minh về sự tồn tại của mối liên hệ, hoặc bịa ra số liệu giả để sửa chữa khiếm khuyết thiếu sót dữ liệu.
Trên thực tế, hành vi ngụy tạo dữ liệu và kết quả khi làm luận văn thường không phát xuất từ tham vọng với lợi ích nào cả cho sự nghiệp – bởi vì học viên chỉ mới bước chân vào con đường nghiên cứu và chưa bị tác động bởi những áp lực và cám dỗ về danh lợi hay quyền lực. Tuy nhiên, đa phần sai phạm là do tâm lý sợ hãi trước áp lực về thời hạn hoàn thành dự án, thiếu bản lĩnh – không dám chấp nhận một kết quả xấu, khác với kỳ vọng chủ quan, thậm chí do một số ngộ nhận về ý nghĩa của kết quả nghiên cứu, hoặc không đủ năng lực giải quyết một cách đúng đắn những khiếm khuyết trong dữ liệu. Ngoài ra, còn có khả năng sự giả mạo do chính chuyên viên phân tích dữ liệu cố ý thực hiện, nằm ngoài khả năng kiểm soát và ý thức của học viên.
Như vặy, bản chất của vấn đề chưa nghiêm trọng lắm và vẫn còn cơ hội để phòng tránh.
Trong một bài trước đây, có người đã bàn về 3 lớp rào cản : không dám, không cần và không thể để ngăn chặn vi phạm.
Rào cản hàng đầu và đơn giản nhất, đó là tác động tâm lý, làm cho chủ thể không dám vi phạm. Sự công khai và minh bạch nội dung luận văn và dữ liệu gốc đảm bảo điều này. Hiện nay, tình hình đã hoàn toàn khác so với 10-20 năm trước đây – tất cả nội dung luận án tiến sĩ đều được công khai và toàn thể người dân đều có thể truy cập, đây là sự cảnh báo cho nghiên cứu sinh – nên làm nghiên cứu một cách nghiêm túc và trung thực, vì một sai lầm nhỏ hôm nay có thể phải trả giá bằng cả sự nghiệp về lâu dài. Có thể là sự may mắn, đó là hầu hết những trường hợp giả mạo kết quả và dữ liệu đều chưa đạt đến mức tinh vi của bàn tay chuyên nghiệp, nên đều lưu lại dấu vết và có thể dễ dàng phát hiện ra. Ngay cả những kết quả tưởng chừng không thể truy vết được như bảng câu hỏi do bệnh nhân tự đánh giá – đồng nghiệp của mình đã từng tiếp xúc với dữ liệu thực tế sẽ dễ dàng nhận ra khác biệt về giá trị trung bình, trung vị và độ phân tán của chúng so với thực tế, những kết quả quá đẹp sẽ không qua mắt được người có kinh nghiệm điều trị lâm sàng, những bất thường trong phân phối các đặc điểm nền giữa các nhóm là dấu vết của sai lệch chọn mẫu chủ ý. Biểu đồ scatter plot bộc lộ các điểm giá trị bất thường và mô thức liên hệ bất hợp lý, trái với quy luật thông thường giữa 2 biến…
Nếu ta đi xa hơn nữa, yêu cầu công khai và minh bạch dữ liệu gốc có thể ngăn ngừa cám dỗ về hành vi giả mạo kết quả hay dữ liệu.
Rào cản “không thể”, theo ý kiến chủ quan của Nhi sẽ không mấy hiệu quả. Vì thực tế cho thấy không có gì là không thể. Trong một bài trước, Nhi đã phân tích tất cả những khe hở của một bảng kiểm tưởng chừng rất chặt chẽ cho phép phát hiện những dấu hiệu bất thường về phân tích dữ liệu và thống kê. Một người có đủ trình độ và kỹ năng về thống kê sẽ dễ dàng lợi dụng những khe hở này để thực hiện ngụy tạo dữ liệu một cách tinh vi đến mức không thể phát hiện được.
Hiện nay, việc giả tạo số liệu không chỉ khả thi, mà còn dễ dàng nữa. Toàn bộ quy trình nghiên cứu chỉ do một người tiến hành, với quyền tiếp cận đồng thời dữ liệu gốc, đối tượng nghiên cứu, quy trình phân tích dữ liệu và báo cáo kết quả. Không có quy trình kiểm tra hay phản biện nào cho tính xác thực của dữ liệu dùng trong nghiên cứu.
Một rào cản khác, theo Nhi là có ý nghĩa sâu sắc hơn – đó là nhận thức rằng không cần thiết phải bị cám dỗ để vi phạm. Nếu nhà trường làm tốt công tác đào tạo về kỹ năng nghiên cứu khoa học, sẽ trang bị cho học viên đủ bản lĩnh để làm nghiên cứu tốt hơn, nhìn nhận vấn đề chính xác, không bị sai lệch và ngộ nhận.
Thí dụ, nếu nghiên cứu được thiết kế tối ưu ngay từ ban đầu, về giả thuyết hợp lý, về cỡ mẫu vừa đủ, về tiêu chuẩn nhận và loại trừ, về sự kiểm soát các yếu tố gây nhiễu, thì sẽ tăng mức độ tự tin vào kết quả, giảm nguy cơ kết quả yếu, không đạt kì vọng.
Một thí dụ khác, ngộ nhận về ý nghĩa thống kê của phân tích tương quan. Nhiều người vẫn lầm tưởng rằng phải phát hiện, chứng minh được sự tồn tại của mối tương quan thì mới là kết quả tốt; tuy nhiên cơ chế sinh lý bệnh học thực tế lại hoàn toàn khác. Đôi khi, tình trạng bệnh lý lại làm đứt gãy hoặc đảo chiều những mối tương quan vốn dĩ hiện diện trong trạng thái bình thường.
Trong thí dụ khác, trang bị kiến thức thống kê có thể giúp học viên tăng cơ hội tiếp cận kết quả đúng như kì vọng, ví dụ ứng dụng mô hình hồi quy tuyến tính tổng quát cho phép hiệu chỉnh tốt hơn cho các hiệp biến và yếu tố gây nhiễu, thay vì chỉ phân tích đơn biến bằng các kiểm định đơn giản. Lựa chọn quy luật phân phối phù hợp cho một đại lượng, như biến rời rạc, biến số đếm, tỷ lệ, … có thể khắc phục giới hạn của giả định phân phối chuẩn… , cac kỹ thuật suy luận nhân quả như IPWT, data matching, sơ đồ DAG… cho phép ước lượng chính xác hơn hiệu ứng điều trị – thay vì bất lực và đi giả mạo dữ liệu để đạt hiệu ứng có ý nghĩa.
Thông điệp kết luận, đó là vấn đề ngụy tạo và giả mạo dữ liệu là có thực và là nguy cơ đe dọa đến nền khoa học trong ngành y khoa. Đã đến lúc chúng ta cần chung tay để phòng ngừa vấn đề này, điều này không chỉ vì yêu thương và bảo vệ cho đồng nghiệp tránh được những hậu quả đáng tiếc cho danh dự, uy tín và sự nghiệp lâu dài, mà còn góp phần phát triển nền khoa học tốt hơn. Trang bị kiến thức và bản lĩnh mạnh mẽ hơn cho nghiên cứu sinh cũng chính là một giải pháp quan trọng đẩy lùi tệ nạn và chiến thắng cám dỗ làm điều sai trái. Người ta sai vì sợ hãi, không phải vì người ta thực sự tham lam hay xấu xa. Khi hiểu biết, người ta không còn sợ hãi nữa.
Statistics:
Likes: 56, Shares: 7, Comments: 0
Like Reactions: 46, Haha Reactions: 0, Wow Reactions: 0, Love Reactions: 9, Sad Reactions: 0, Angry Reactions: 0