Namlun Didong – 2024-11-11 09:13:37
Vi phạm liêm chính khoa học là một vấn đề nghiêm trọng, không chỉ ngăn trở sự phát triển mà còn triệt tiêu niềm tin vào khoa học. Một cách phổ quát, các hành vi vi phạm thường được quy về 3 nhóm: giả mạo (fabrication), làm sai lệch (falsification), và đạo văn (plagiarism). Đã có nhiều phân tích về các nhóm hành vi này cho đối tượng văn bản, dữ liệu, và hình ảnh thí nghiệm; tuy nhiên hiếm khi người ta bàn về chúng cho biểu đồ thống kê – cũng là một bộ phận của kết quả. Đôi khi, người ta bắt gặp một vài trường hợp ngụy tạo hay chỉnh sửa một cách thô thiển vào biểu đồ – nhưng đó chỉ là phần nổi của tảng băng. Là một chuyên viên phân tích dữ liệu, tôi sẽ thử trình bày về tất cả những khả năng can thiệp vào biểu đồ, bao gồm những cách tinh vi và nguy hiểm mà không ai có thể phát hiện được.
1. Giả mạo/ngụy tạo trong biểu đồ thống kê:
Một cách cơ bản, đồ họa thống kê là một hình thức trực quan hóa dữ liệu. Ta hãy tự hỏi: nếu bản thân dữ liệu đã là giả mạo và sản phẩm của bịa đặt, thì mọi kết quả đều vô giá trị. Thậm chí, đôi khi biểu đồ chính là mục tiêu và phương tiện hỗ trợ cho hành vi ngụy tạo dữ liệu (kẻ gian lận có thể tinh chỉnh dữ liệu giả cho đến khi thu được một biểu đồ đẹp và có vẻ hợp lý). Ngụy tạo có thể thủ công hoặc tinh vi bằng phương pháp mô phỏng.
Ta lại suy nghĩ về điều này: mức độ nguy hại của dữ liệu trực quan hóa còn đáng sợ hơn cả những kết quả bằng con số, bởi 2 nguyên nhân: thứ nhất – một vài loại biểu đồ có ý nghĩa khái quát hóa và tóm tắt khuynh hướng nhưng không thực sự trình bày chi tiết về dữ liệu (ví dụ boxplot, bar plot, regression line), và trở thành công cụ để che giấu tất cả những bất thường trong dữ liệu – là dấu chỉ gợi nghi ngờ về việc ngụy tạo. Thứ hai, hiệu ứng thị giác của biểu đồ mạnh hơn nhiều so với con số: sự tương phản về kích thước, một khuynh hướng.. vv, thông điệp nó tuyền tải hiệu quả và ghi dấu ấn lâu dài hơn con số và các bảng dữ liệu, ấn tượng mà nó gây ra sẽ rất sâu sắc. Một số người khi đọc bài báo khoa học có thể chỉ đọc abstract, rồi lướt nhanh các biểu đồ và tiếp nhận thông điệp mà không suy xét xa hơn. Biểu đồ ngụy tạo này sau đó sẽ thường được trình chiếu khi thuyết trình và đăng lại trong các bài tổng quan hay báo chí phổ thông. Như vậy thông điệp ngụy tạo sẽ được nhân bản xa và mạnh hơn cả con số và bài báo.
2. Làm sai lệch (falsification):
Làm sai lệch là việc thay đổi, chỉnh sửa dữ liệu hoặc chính bản thân biểu đồ. Động lực thường là tham vọng cố chấp về giả thuyết, che giấu kết quả không mong đợi, hoặc che giấu khiếm khuyết của dữ liệu, làm cho dữ liệu trông “đẹp” hơn.
Nhóm này gồm rất nhiều hành vi với nhiều mức độ tinh vi, và có thể chia thành 2 nhóm nhỏ hơn: can thiệp trên dữ liệu gốc, và can thiệp trên chính biểu đồ. Tuy khác nhau về cách thức, kết quả của cả hai đều như nhau, là một sự gian lận và đáng bị lên án.
Can thiệp trên dữ liệu gốc bao gồm cố ý loại bỏ một bộ phận dữ liệu, xóa outliers, xóa hẳn những trường hợp kết quả negative, hoặc chọn mẫu thiên lệch để đạt khuynh hướng, phân phối … giả tạo. Một số được tiến hành ngay từ giai đoạn thí nghiệm, như cố ý tạo ra selection bias, kèm theo việc xóa dấu vết một cách tinh vi, như dùng phương pháp matching (ghép cặp).
Can thiệp trên biểu đồ có thể được thực hiện thô sơ và thủ công (ví dụ sử dụng một phần mềm chỉnh sửa ảnh vector để xóa bỏ các điểm trên scatter plot, hoặc làm biến dạng biểu đồ : thu nhỏ error bar, bóp méo bar plot, density plot, làm lệch regression plot…
Hoặc tinh vi hơn nữa, chủ động tạo ra ảo giác (gọi là ngụy biện bằng hiệu ứng thị giác), như chỉnh sửa tỉ lệ trục và thang đo theo hướng phóng đại/thu nhỏ sự tương phản, chủ động lọc bỏ các outliers bằng mã lập trình, sử dụng trọng số, nhấn mạnh sự tương phản bằng màu sắc, nét vẽ, diện tích…, dùng hiệu ứng 3D để tạo ảo giác…
Bản thân việc chọn hình thức biểu đồ để báo cáo cũng tiềm ẩn ý đồ gian dối. Bạn sẽ ngạc nhiên khi biết nguyên nhân tại sao người ta ưa chuộng boxplot và barplot hơn là density plot, histogram, scatter plot, bởi vì họ muốn che giấu thông tin, giấu đi khuyết điểm và bất thường trong dữ liệu, không muốn người đọc tái tạo được dữ liệu gốc.
3. Đạo văn (Plagiarism)
Đạo văn là việc sử dụng sản phẩm khoa học của người khác hoặc của chính mình mà không có sự cho phép hoặc không trích dẫn nguồn gốc.
Không chỉ ý tưởng và văn bản, biểu đồ và dữ liệu cũng có thể bị “sao chép” và “tái sử dụng”.
Một tác giả có thể chỉnh sửa nhẹ một biểu đồ cũ và đưa vào nghiên cứu mới dù dữ liệu không ăn nhập gì cả. Họ có thể chỉ làm thí nghiệm một lần, sau đó chỉnh sửa đôi chút rồi nhân bản công bố.
Với sự phát triển của trí tuệ nhân tạo, không khó khăn để tạo ra một algorithm cho phép tái tạo lại dữ liệu gốc từ một biểu đồ trên một bài báo (dùng thị giác máy tính), sau đó đăng lại màkhông xin phép tác giả hoặc không trích dẫn nguồn. Thậm chí họ có thể chỉnh sửa lại dữ liệu này và xem như nó là của mình. Trong trường hợp này hành vi vi phạm vừa là đạo văn, vừa là ngụy tạo.
Kết luận, vi phạm liêm chính khoa học đối với biểu đồ thống kê là một vấn đề rất phức tạp và đa dạng nhưng còn ít được quan tâm. Tác hại mà biểu đồ ngụy tạo gây ra có thể còn nguy hiểm hơn cả những hình thức gian lận khác như con số hoặc văn bản. Kỹ năng và trình độ càng cao, hành động gian lận càng tinh vi và khó phát hiện. Ta cần tăng cường nhận thức về liêm chính khoa học trong đào tạo và phát triển chuyên môn. Thực hiện quy trình thẩm định chặt chẽ trong quá trình xuất bản và công bố nghiên cứu có thể khắc phục một phần nguy cơ này.
Statistics:
Likes: 122, Shares: 39, Comments: 0
Like Reactions: 111, Haha Reactions: 1, Wow Reactions: 1, Love Reactions: 9, Sad Reactions: 0, Angry Reactions: 0