Lê Ngọc Khả Nhi – 2020-09-15 07:22:42
Gần đây giới khoa học tranh luận sôi nổi về khái niệm ‘Liêm Chính’, nhưng họ chỉ mới đề cập đến một bộ phận của vấn đề, là hợp tác, công bố bài báo. Còn một nguy cơ khác mà nhà nghiên cứu phải đối mặt hằng ngày, đó là sự ngụy biện bằng thống kê.
Trong thống kê cổ điển, người ta đã liệt kê hàng đống những thủ thuật ngụy biện và gian lận mà mục tiêu là hack giá trị p và kết quả positive, như nạo vét dữ liệu, tra tấn dữ liệu… Sự gian lận có thể trần trụi, như dựng hàng loạt mô hình cho đến khi tìm được kết quả hợp với giả thuyết, ngụy tạo dữ liệu bằng phép mô phỏng (người chuyên nghiệp mà fake dữ liệu thì rất khó để nhận ra !), nhưng cũng có thể tinh vi hơn, như chọn kiểm định ít bảo thủ, bóp méo giả thuyết tiền định a priori trong mô hình Bayes, hay Harking: đảo ngược quy trình: làm thí nghiệm trước, rồi lấy kết quả làm mục tiêu nghiên cứu.
Machine learning là một sân chơi mới, có những sai lầm do ngộ nhận ở người mới vào nghề, nhưng cũng không ít người cố tình gian lận. Một cách đơn giản nhất là tìm cách leaking thông tin từ test set. Thí dụ trong bài toán biosignal learning hay medical imaging classification, nếu người nghiên cứu chủ động lấy mẫu lặp lại nhiều lần trên cùng một bệnh nhân, hoặc giao dữ liệu train/test cho cùng một người dán label, rồi chia đều các mẫu này giữa train và test set, họ sẽ có kết quả đẹp như mơ ! Cũng có những trò gian lận tinh vi hơn như dùng test set để tinh chỉnh hyper parameter, dùng test set như validation cho training curve, …
Có một sự thật mà bạn nào từng học và thực hành môn thống kê đủ lâu sẽ nhận ra: khi kiến thức của chúng ta càng sâu, rộng, kinh nghiệm thực chiến càng dày, khả năng viết code càng tốt, thì cám dỗ làm những điều gian tà càng lớn mạnh. Trong những hoàn cảnh tuyệt vọng vì áp lực của mục tiêu, ta rất dễ đầu hàng sự cám dỗ ma quỉ này. Làm mội lần trót lọt, sẽ có lần tiếp theo và dần quen tay, ta đi vào ma đạo lúc nào không hay.
Để có thể thắng được cám dỗ làm điều gian lận, Nhi có một số gợi ý:
1. Học sâu (không phải deep learning 🙂 ) về lý thuyết, hiểu rõ cơ chế của các công cụ, phương pháp mình sử dụng, biết nhược điểm, ưu điểm, những nguy cơ và sai sót cần tránh, biết cách làm đúng và sai. Như đã nói, hiểu biết rộng và sâu một mặt sinh ra cám dỗ lớn mạnh, nhưng đồng thời cũng sinh ra một thế lực “công chính” mạnh tương đương để đối nghịch với cám dỗ. Khi bạn nhận định được đúng/sai, trong lương tâm sẽ viết ra luật lệ để ngăn cản làm điều sai.
1. Tuân thủ các quy trình, luật chơi: thí dụ đơn giản nhất: khi học các kiểm định thống kê, có những bước kiểm tra giả định. Không nên bỏ qua những bước này. Đây là sự rèn luyện tính kỉ luật trong công việc. Tương tự, việc thăm dò dữ liệu ban đầu không phải là thủ tục hình thức, nhưng mang lại một cái nhìn trung thực và toàn cảnh về dữ liệu, bằng trực giác/kinh nghiệm có thể bạn sẽ nhận ra được tính khả thi/phi lý của mục tiêu và giả định ban đầu
Trên thực tế, không có gian lận nào không bị phát hiện, vì ta có thể lừa được 1 nhóm reviewer 1 lần, nhưng không thể lừa được toàn bộ giới khoa học nhiều lần hay lâu dài. Sẽ có lúc người ta không lặp lại được kết quả và nghi ngờ. Nhiều người đả phải trả giá vì những việc này.
Statistics:
Likes: 86, Shares: 7, Comments: 19
Like Reactions: 76, Haha Reactions: 0, Wow Reactions: 1, Love Reactions: 8, Sad Reactions: 0, Angry Reactions: 0