Duong Tu – 2021-08-23 08:59:15
**NGHIÊN CỨU QUAN TRỌNG VỀ SỰ TRUNG THỰC HÓA RA LẠI DỰA TRÊN DỮ LIỆU NGỤY TẠO**
Mấy ngày vừa qua, không chỉ giới kinh tế học mà cả cộng đồng khoa học ở nhiều nơi trên thế giới xôn xao vì bài viết mới nhất của nhóm Data Colada chỉ ra sự ngụy tạo dữ liệu trong một bài báo rất quan trọng và có tác động chính sách lớn của một nhóm nghiên cứu bao gồm nhiều nhà khoa học đang làm việc tại các trường đại học hàng đầu thế giới.
Data Colada (nhại tên loại cocktail phổ biến Piña colada) là trang blog chuyên về phân tích định lượng và thảo luận về các nghiên cứu kinh tế học hành vi do ba nhà khoa học uy tín thành lập từ năm 2013: Uri Simonsohn tại Đại học Ramon Llull – Tây Ban Nha, Leif Nelson tại UC Berkeley, và Joe Simmons tại Đại học Pennsylvania: https://datacolada.org/about
Thứ Ba tuần trước, Data Colada chứng minh một cách thuyết phục về sự giả mạo dữ liệu trong bài báo công bố trên tạp chí danh giá PNAS của nhóm nhà khoa học, đại diện là Dan Ariely tại Duke University.
Tuy bài báo có 5 tác giả làm việc tại các trường top thế giới như Harvard, Northwestern hay Toronto, và Dan Ariely cũng không phải corresponding author của công trình này, nhưng dư luận nhắc nhiều nhất đến nhà khoa học từ Đại học Duke danh tiếng bởi: (i) Dan Ariely là người nổi tiếng nhất trong nhóm nghiên cứu, thường xuyên xuất hiện trên truyền thông (sách báo, TED talks, phim tài liệu) như một nhân vật của công chúng, đồng thời là một trong những nhà nghiên cứu về tâm lý học và kinh tế học hành vi hàng đầu thế giới, từng được xếp vào danh sách 50 nhà tâm lý học đang còn sống có ảnh hưởng nhất trên toàn cầu; và (ii) quan trọng hơn, ông là người duy nhất chịu trách nhiệm thu thập bộ dữ liệu được dùng trong nghiên cứu.
**Nghiên cứu về sự trung thực**
Năm 2012, Dan Ariely và cộng sự công bố bài báo “***Signing at the beginning makes ethics salient and decreases dishonest self-reports in comparison to signing at the end***” (https://www.pnas.org/content/109/38/15197) với kết luận rằng có thể làm giảm gian lận trong các tờ khai thông tin bằng một cách rất đơn giản, đó là đề nghị mọi người ký cam kết về sự trung thực trước khi khai báo thông tin (dòng cam kết được đặt trên đầu trang khai báo) thay vì đánh dấu vào cam kết này sau khi khai thông tin (dòng cam kết ở cuối trang khai báo).
Đây là một nghiên cứu rất đẹp, kết luận dễ hiểu và có thể áp dụng ngay, được chính nhà khoa học đoạt giải Nobel Kinh tế năm 2002 là Daniel Kahneman tại Đại học Princeton trực tiếp đọc và biên tập. Công trình này không chỉ có ảnh hưởng về mặt khoa học (đã được trích dẫn vài trăm lần) mà còn có tác động lớn về chính sách. Thật vậy, một số quốc gia như Anh Quốc, Canada và Guatemala đã thử áp dụng kết quả này trong mẫu khai thuế, chính phủ Obama cũng chú ý đến nghiên cứu còn Sở Thuế Vụ Hoa Kỳ (IRS) đã ghi nhận phương pháp này trong việc giúp thu thêm 1,6 triệu đôla trong một quý từ các nhà cung cấp dịch vụ cho chính phủ Mỹ. Một công ty bảo hiểm cũng đã áp dụng mẫu hợp đồng mới trong đó dòng cam kết về khai báo thông tin trung thực được chuyển lên đầu trang thay vì đặt ở cuối trang.
Nghiên cứu của Dan Ariely và cộng sự được thiết kế tương đối đơn giản như sau: dưới sự giám sát của Ariely, một công ty bảo hiểm xe hơi tại vùng Đông Nam nước Mỹ đề nghị khách hàng khai báo con số hiển thị trên công-tơ mét của tối đa 4 chiếc xe hơi trong hợp đồng bảo hiểm. Khách hàng được phân ngẫu nhiên vào hai nhóm với khác biệt duy nhất trong mẫu khai báo là dòng cam kết “*I promise that the information I am providing is true*” được đặt trên đầu hoặc ở cuối trang khai báo. Thông thường, người mua bảo hiểm xe hơi có xu hướng khai số dặm đã lái thấp hơn thực tế (nên xe ít nguy cơ gặp tai nạn hơn) để được mua bảo hiểm mức rẻ hơn. Phân tích kết quả từ 13.488 bản khai báo cho thấy những khách hàng thuộc nhóm ký cam kết ở đầu trang đã lái xe nhiều hơn nhóm ký cam kết ở cuối trang 2.400 dặm (10.3%). Từ kết quả này, nhóm tác giả đưa ra kết luận rằng việc ký cam kết ngay từ đầu trang khai bảo hiểm đã khiến khách hàng trung thực hơn so với khi dòng cam kết xuất hiện ở cuối trang.
Tuy nhiên, gần 9 năm sau, vào tháng 3/2020, chính nhóm nghiên cứu này cùng với hai tác giả mới, công bố một bài báo khác cũng trên PNAS mang tên “***Signing at the beginning versus at the end does not decrease dishonesty***” (https://www.pnas.org/content/117/13/7103) cho thấy các tác giả không thể lặp lại kết quả nghiên cứu năm 2012.
Khi phân tích lại dữ liệu đã sử dụng trong bài báo trên PNAS năm 2012, nhóm nghiên cứu phát hiện ra rằng có sự khác biệt rất lớn giữa số liệu công-tơ mét ở hai nhóm khai báo. Cụ thể là nhóm khách hàng ký cam kết ở đầu trang có số dặm đã đi ban đầu nhiều hơn khách hàng thuộc nhóm ký cam kết ở cuối trang tới 15.000 dặm. Con số này cao hơn hẳn so với sự khác biệt 2.400 dặm đã lái giữa hai nhóm, khiến kết luận đưa ra không còn đáng tin cậy. Nhóm tác giả suy đoán rằng có thể quá trình phân nhóm ngẫu nhiên trong nghiên cứu năm 2012 đã gặp sai sót.
Bản thân phát hiện này đã thú vị và quan trọng. Tuy nhiên, điều thú vị hơn là để chứng minh cho kết quả mới, nhóm nghiên cứu phải công bố toàn bộ dữ liệu đã được dùng cho nghiên cứu năm 2012. Đó là thời điểm sự gian lận bắt đầu bị phơi bày: một nhóm nhà nghiên cứu ẩn danh đã phát hiện ra rằng bài báo năm 2012 có vấn đề nghiêm trọng hơn sai sót về phân nhóm ngẫu nhiên rất nhiều với những bằng chứng vững chắc cho thấy dữ liệu đã bị ngụy tạo.
**Những bất thường về dữ liệu**
Bất thường đầu tiên là phân phối không hợp lý về số dặm đã lái: thay vì phân phối chuẩn, số dặm đã lái thể hiện phân bố đều (uniform distribution) trong khoảng từ 0 đến 50.000 dặm, nghĩa là số người đã lái 40 ngàn dặm bằng số người lái 20 ngàn dặm, và cũng bằng số người lái 500 dặm… Ngoài ra, trong số hơn 13 ngàn khách hàng, không có bất kỳ ai đã lái hơn 50 ngàn dặm. Kỳ lạ hơn, phân bố đều và giới hạn 50 ngàn dặm không chỉ xảy ra với một xe mà được ghi nhận ở cả 4 xe. Giả thuyết mà nhóm phân tích trên Data Colada đưa ra là số dặm đã lái được báo cáo không phải dữ liệu thực mà đã được tạo ra bằng một công cụ tạo số ngẫu nhiên từ 0 đến 50.000, đơn giản như hàm RANDBETWEEN(0,50000) trong ứng dụng văn phòng Excel.
Bất thường thứ hai liên quan đến việc làm tròn số. Thông thường, khi khai báo con số lớn trên công-tơ-mét, khách hàng có xu hướng làm tròn số. Tất nhiên có thể có một số khách hàng ghi chính xác con số hiển thị trên đồng hồ đo quãng đường, nhưng phải có nhiều người khai báo con số đã làm tròn. Thế nhưng, kết quả phân tích cho thấy số người khai báo con số làm tròn đến hàng đơn vị hay hàng ngàn hoàn toàn giống số người không làm tròn con số. Nói cách khác, hơn 13 ngàn khách hàng không ai bảo ai nhưng tất cả lại cùng thống nhất không làm tròn số dặm khai báo. Kết quả này giống với sản phẩm của một phần mềm tạo số ngẫu nhiên hơn là hành vi của con người.
Bất thường thứ hai rưỡi là phông chữ. Nhóm phân tích nhận thấy các con số trong file dữ liệu có một nửa dùng phông Calibri, nửa còn lại sử dụng phông Cambria. Khác biệt giữa hai phông chữ này rất dễ nhận ra do phông Cambria có kích thước ký tự lớn hơn hẳn so với phông Calibri.
Bất thường thứ ba vẫn liên quan đến phông chữ, nhưng không chỉ về phông chữ. Các nhà phân tích nhận thấy hai phông chữ Calibri và Cambria xuất hiện với tần suất giống hệt nhau: 6744 khách hàng có con số khai báo dùng phông Calibri và cũng có chính xác từng ấy khách hàng khác có số dặm được ghi theo phông Cambria. Bên cạnh đó, mỗi số liệu theo phông Cabliri dường như tương ứng với một con số theo phông Cambria. Cụ thể hơn, mỗi số liệu theo phông Calibri đều có một anh em song sinh theo phông Cambria với số dặm nhiều hơn nhưng không bao giờ nhiều hơn quá 1000 dặm. Nói cách khác, dường như có 6744 cặp khách hàng song sinh với hành vi lái xe giống hệt nhau. Hai đường phân bố số dặm theo hai phông chữ gần như hoàn toàn trùng khít với nhau. Có lẽ một con số ngẫu nhiên từ 0 đến 1000 đã được cộng vào số dặm theo phông Cabibri để tạo ra dữ liệu theo phông Cambria. Khi chạy mô phỏng 1 triệu lần để xác định xác suất xảy ra sự trùng hợp này với những giả định rộng rãi nhất, các nhà phân tích ghi nhận số lần xuất hiện tình huống như trong bài báo năm 2012 của Dan Ariely là 0. Zero!
Bất thường cuối cùng vẫn liên quan đến phông chữ, nhưng còn liên quan đến cả làm tròn số: trong khi tỷ lệ số liệu theo phông Calibri được làm tròn đến hàng ngàn là 20,6% thì ở nhóm dữ liệu theo phông Cambria, con số này là 0,13%. Kết quả này một lần nữa củng cố giả thuyết số liệu theo phông Cambria đã được ngụy tạo dựa trên các con số theo phông Calibri, bởi phần mềm sinh số ngẫu nhiên không làm tròn số giống như hành vi bình thường của con người.
**Phản hồi từ Dan Ariely và cộng sự**
Trước khi công bố, nhóm phân tích Data Colada đã gửi bản thảo bài viết cho tất cả các tác giả hai bài báo năm 2012 và 2020 trên PNAS. Những tác giả phản hồi đều thừa nhận phân tích của Data Colada là thuyết phục và dữ liệu dùng trong bài báo năm 2012 đã bị ngụy tạo.
Mặc dù Dan Ariely là người duy nhất tham gia vào quá trình thu thập dữ liệu, ông phủ nhận mình đã ngụy tạo số liệu mà nói rằng đó là dữ liệu nguyên bản do công ty bảo hiểm cung cấp. Tuy nhiên, nhiều nghi vấn đang được đặt ra về sự trung thực của Dan Ariely.
Thông tin về file Excel dữ liệu gốc cho thấy Dan Ariely là người khởi tạo đồng thời là người cuối cùng sửa file này. Ngoài ra, trong quá trình thảo luận và phân tích dữ liệu vào năm 2011, Ariely gửi file dữ liệu cho đồng tác giả Nina Mazar. Tác giả này phát hiện thấy hai vấn đề không ổn. Đầu tiên là dữ liệu trong file Excel cho thấy kết quả ngược lại giả thuyết trong bài báo năm 2012. Khi Nina Mazar đặt nghi vấn về điểm này, Ariely trả lời rằng trong lúc chuẩn bị file dữ liệu cho cô, Ariely đã đổi tên cột dữ liệu cho dễ nhận biết nhưng vô tình đổi nhầm tên. Vấn đề không ổn thứ hai mà Nina Mazar để ý là công thức tính số dặm đã đi bị thiếu ở hai dòng cuối cùng trong file Excel.
**Gian lận khoa học và công khai dữ liệu**
Phân tích trên Data Colada tuy được đăng tải bởi 3 tác giả của trang blog này, nhưng nhóm phân tích cho biết hầu hết bằng chứng được cung cấp bởi một nhóm nhà nghiên cứu ẩn danh đã bỏ rất nhiều thời gian, công sức phân tích và phát hiện ngụy tạo dữ liệu trong bài báo của Dan Ariely và cộng sự.
Những phân tích trên Data Colada không nhằm tấn công Dan Ariley và cộng sự hay hạ bệ một trong những nhà nghiên cứu tâm lý học và kinh tế học hành vi hàng đầu thế giới tại một trường đại học danh tiếng mà nó cho thấy những vấn đề lớn hơn, đáng quan tâm hơn về nghiên cứu khoa học. Dưới đây là phần dịch nguyên văn 3 đoạn cuối cùng trong bài viết trên Data Colada:
“*Chúng tôi đã nghiên cứu đủ nhiều về những trường hợp gian lận trong thập kỷ vừa qua để biết rằng gian lận trong khoa học phổ biến hơn so với chúng ta nghĩ, và tình trạng này không chỉ xảy ra ở ngoại vi của khoa học. Trách nhiệm giải quyết vấn nạn gian lận khoa học không nên đặt lên vai vài người tố giác ẩn danh (lo lắng và sợ hãi) cũng như vài blogger (lo lắng và sợ hãi). Tất cả chúng ta đều phải gánh chịu hậu quả của gian lận khoa học theo cách tập thể, do đó loại trừ gian lận cũng phải là nỗ lực tập thể. Mọi người có thể làm gì?*
*Sẽ không bao giờ có giải pháp hoàn hảo, nhưng có một hành động rõ ràng mà chúng ta có thể làm: công khai dữ liệu. Sự ngụy tạo dữ liệu trong bài báo này bị phát hiện do dữ liệu được công khai. Nếu nhiều dữ liệu hơn được công khai, gian lận khoa học sẽ dễ bị tóm hơn. Và nếu gian lận dễ bị tóm hơn, một số kẻ gian lận tiềm năng có thể sẽ miễn cưỡng hơn với gian lận. Các lĩnh vực nghiên cứu khác đã làm việc này. Chẳng hạn, nhiều tạp chí kinh tế hàng đầu thế giới yêu cầu các tác giả phải công khai dữ liệu gốc. Không có lý do gì để thoái thác việc đó. Tất cả các tạp chí nên yêu cầu công khai dữ liệu.*
*Cho đến ngày đó, tất cả chúng ta có thể đóng vai trò nhất định. Là tác giả (và đồng tác giả), chúng ta cần luôn công khai dữ liệu. Ở vị trí biên tập viên và chuyên gia bình duyệt, chúng ta có thể yêu cầu tác giả công bố dữ liệu trong quá trình bình duyệt, và từ chối lời mời bình duyệt những bản thảo không công khai dữ liệu. **Một lĩnh vực nghiên cứu phớt lờ vấn nạn gian lận khoa học hoặc giả vờ như gian lận không tồn tại có nguy cơ bị mất tín nhiệm. Và nó đáng bị như thế***”.
**References**
1. Phân tích cực kỳ khoa học và thuyết phục trên Data Colada: https://datacolada.org/98
2. Bài tường thuật theo phong cách báo chí của BuzzFeed News: https://www.buzzfeednews.com/article/stephaniemlee/dan-ariely-honesty-study-retraction
Shared link: https://www.buzzfeednews.com/article/stephaniemlee/dan-ariely-honesty-study-retraction
Statistics:
Likes: 294, Shares: 31, Comments: 30
Like Reactions: 231, Haha Reactions: 24, Wow Reactions: 25, Love Reactions: 5, Sad Reactions: 8, Angry Reactions: 0