Nguyễn Phước Duy – 2025-07-10 11:27:00
Chào các bạn, lại là tôi người hôm trước nói sẽ đăng 300,000 bài luận và báo khoa học dính AI đây!
Vì bài đầu tiên gây nhiều tranh cãi nên bài này tôi chia làm ba phần: (1) Viết cho rõ lập trường và quan điểm của tôi, (2) Một số ví dụ về các bài báo khoa học có hành vi giả trích dẫn, giả dữ liệu thông qua AI để minh họa quan điểm, và (3) Trả lời một số bình luận ở bài đăng cũ.
Sau bài đăng đầu thì tôi định đăng tiếp bài này sau khoảng 4-5 ngày nhưng không may khi ăn bún đậu chấm nước mắm chanh tỏi ớt và nước tương Chinsu thì bị đau bụng, đến hôm nay mới đăng tiếp được!
1️⃣ Quan Điểm và Lập Trường Cá Nhân
Ở bài đầu tiên tôi có nói là:
> AI không xấu, cái xấu là cách ta lạm dụng nó để lừa mình, lừa người. Nếu đã dùng AI thì phải dùng cho ra người, dùng để hỗ trợ tư duy chứ không phải làm bình phong để trốn tránh việc học.
Tôi vẫn giữ nguyên quan điểm này bởi vì AI vốn là công cụ rất tốt cho nghiên cứu khoa học ví dụ như truy tìm nguồn tài liệu hay tóm tắt tài liệu và đưa ra gợi ý suy nghĩ. Tuy nhiên, vấn đề cốt lõi nằm ở ý thức và thái độ sử dụng công nghệ (ví dụ phần 2 sẽ giúp các bạn hiểu rõ hơn).
Có bạn ở bài cũ nói là bạn dùng AI để viết lại văn cho rõ nghĩa hơn, theo ý kiến riêng tôi thì việc này hoàn toàn chấp nhận được, miễn là bạn vẫn nắm được nội dung và đảm bảo tính đúng đắn của nội dung.
Xin hãy chú trọng câu này thể hiểu rõ quan điểm của tôi: AI không có lỗi gì cả, nếu bạn dùng đúng cách. Ví dụ như bạn dùng để chỉnh chu ý, tóm tắt văn bản, tìm tài liệu, làm dàn ý, trong phạm vi cho phép bởi nhà trường và Tạp chí. Nhưng nếu bạn dùng nó để làm giả kiến thức thì lỗi không còn ở công nghệ mà ở con người dùng nó.
Và mong bạn hãy chú trong câu thứ hai này: Các công cụ kiểm tra AI không hoàn hảo, nhưng “một vài” công cụ lại cho kết quả kiểm tra chính xác hơn một số công cụ miễn phí khác (ngạc nhiên chưa khi bạn đem bài này cắt rồi dán vào ZeroGPT miễn phí nó cho 99% dù tôi dành cả tiếng để viết và kiểm tra chính tả, nhưng Turnitin không kiểm tra tiếng Việt được nhé).
Các tệp tin bị quét dính AI không phải là kết quả, mà là điểm khởi đầu cho quá trình kiểm chứng lại nguồn trích, lập luận, và cả độ đúng đắn của dữ liệu, kết quả của các bài báo, luận văn. Việc dính AI không phải là đủ để kết luận bài báo không liêm, mà là lý do chính đáng để VAR nội dung bài báo.
2️⃣ Một Số Ví Dụ Về Các Bài Báo Khoa Học Dính AI Tỷ Lệ Lớn và Có Hành Vi Giả Trích Dẫn, Kết Quả Đáng Nghi Vấn
Dưới đây là đường dẫn Google Drive đến ba bài báo khoa học và một bài nghiên cứu khoa học làm ví dụ:
[[https://drive.google.com/drive/folders/1EQp7O8Uky2xXO_f3K6jgTGDKnUScJK08?usp=sharing](https://drive.google.com/drive/folders/1EQp7O8Uky2xXO_f3K6jgTGDKnUScJK08?usp=sharing)](https://drive.google.com/drive/folders/1EQp7O8Uky2xXO_f3K6jgTGDKnUScJK08?usp=sharing)
Đầu tiên là bài báo khoa học “Blended Learning For Vietnamese-english Specialised Translation: An Exploratory Case Study At A University In Vietnam” của tác giả Tran Thi Thao Phuong được đăng trên Tạp chí Khoa học Ngôn ngữ và Văn hóa năm 2023 có 84% nội dung nghi ngờ sử dụng AI bởi Turnitin.
Chúng ta có thể kết luận là bài báo này là 💩 từ tỷ lệ AI này không? Câu trả lời là KHÔNG (là Nồ Nố Nô Nồ Nô đó!) vì Turnitin không phải là thẩm phán, và các bộ kiểm tra AI không thể thay cho việc đọc bài và kiểm chứng nguồn,và hơn nữa là vì cái chúng ta cần không chỉ là một con số, mà là đối chiếu nội dung, kiểm tra nguồn trích dẫn, và đánh giá tính đúng đắn của dữ liệu và kết quả.
Sau khi tôi dùng các công cụ cao cấp để kiểm tra nguồn trích dẫn của bài báo trên thì có đến 80% nguồn trích dẫn là GIẢ. Giả là fake đó! Giả là những nguồn này KHÔNG CÓ THẬT, và dù bạn có dùng DOI, hệ thống tìm kiếm journal tiên tiến nhất hay Google Scholar thì cũng không tìm thấy hơn 80% nguồn trích dẫn của bài báo này (minh họa ở Hình 1 và Hình 2).
Tác giả Tran Thi Thao Phuong cũng có một bài báo khác tựa đề là “Using Machine Translation In English-vietnamese Translation: Perspectives From English- Vietnamese Translation Major Students” được đăng trên *Hue University Journal of Science* năm 2024. Bài báo này có tỷ lệ ~92% nội dung là AI.
Hỏi lại một lần nữa, chúng ta có thể bảo bài báo này là 💩 chỉ vì AI? KHÔNG. Ta không thể chỉ dựa vào tỷ lệ AI để đưa ra kết luận, nhưng khi các dấu hiệu như tỷ lệ AI vượt ngưỡng báo động là trên 80% hoặc 90% và nguồn không truy xuất được thì phải đi vào xem xét đúng không?
Bài báo năm 2024 của tác giả Phuong có sự tiến bộ là số lượng nguồn không có thật giảm đi, nhưng hầu hết các trích dẫn (hơn 70%) không tồn tại, và một số trích dẫn SAI tên tác giả, SAI tên bài báo, SAI tên tạp chí (minh họa ở Hình 3, Hình 4, Hình 5, Hình 6, và Hình 7).
→ Đây mới điều gây cấn!
Các trích dẫn GIẢ của bài báo năm 2024 của tác giả Phuong được một nhóm sinh viên trường Đại học Mở dùng để làm Nghiên cứu Khoa học, nhưng bài NCKH này cũng đầy trích dẫn giả, và nhét chữ trích dẫn trực tiếp vào văn của bài báo gốc. Để nói cho dễ hiểu là nhóm sinh viên này có rất nhiều trích dẫn trực tiếp không trùng khớp với nguồn bài báo gốc, và phần trích dẫn của bài NCKH này cũng đầy trích dẫn với sai tên Tạp chí, sai tên tác giả, sai DOI (minh họa ở Hình 8 và Hình 9).
Ở đây tôi sẽ cho bạn một ví dụ từ một tạp chí khác.
Bài báo “Students’ Perceptions On Positive Psychology In English Learning At Thanh Dong University” của tác giả Nguyen Van Thang đăng trên Vnu Journal Of Foreign Studies có đến 96% nội dung cho nghi vấn là AI.
Hỏi lại một lần cuối nhé: Chúng ta có thể kết luận bài báo là gian lận học thuật không từ con số AI không? KHÔNG. Nhưng mà từ xuất phát điểm này thì CÓ CĂN CỨ để đặt nghi vấn rất nghiêm trọng về tính trung thực và liêm chính học thuật.
Mặc dù các trích dẫn rất sơ sài (bỏ qua cái này) và nhiều phần chưa sát với nội dung của bài báo (bỏ qua luôn), nhưng điểm nghi vấn lớn nhất vẫn là bảng kết quả (trang 118 của bài báo hoặc Hình 11) với độ lệch chuẩn của five-point Likert scale bất bình thường. Về mặt xác suất thống kê, độ lệch chuẩn của thang đo Likert 5 mức (chuyển đổi sang các giá trị 1-5) không thể vượt quá 2 với tổng thể, và 2.828 nếu là mẫu (giá trị bằng xảy ra khi n = 2).
Nếu tác giả nói là dùng phương sai thay độ lệch chuẩn thì vẫn không hợp lý, vì trong bảng có ít nhất 5 giá trị phương sai vượt 4.0, tức là phương sai cao đến mức không thể xảy ra (n = 63, var_max sẽ rơi vào 4.0635 nếu dùng mẫu) nếu dữ liệu thực sự được thu thập từ một thang Likert 5 điểm.
Vậy thì ở đây chúng ta đặt câu hỏi không phải ở vấn đề AI, mà là ở chất lượng và tính hợp lệ của toàn bộ dữ liệu nghiên cứu.
3️⃣Trả Lời Một Số Bình Luận ở Bài Cũ
#1 Đăng 300,000 bài lên thì lộ thông tin người ta thì sao? Để tôi lấy ví dụ thế này cho bạn hiểu. Bây giờ bạn dùng Windows l.ậ.u thay vì bỏ tiền thì bạn chịu trách nhiệm với máy tính của mình. Tất cả nội dung thu thập được đều thông qua các cổng Turnitin KHÔNG CHÍNH THỐNG, tức là người nộp bài đã chủ động đưa bài của mình lên các nền tảng đó, chấp nhận rủi ro bị lưu trữ, quét, hoặc tái sử dụng.
Nếu những bài này được trích xuất từ các cổng Turnitin chính thức từ các trường đại học hay hệ thống nội bộ có bảo mật (có EULA), thì việc công khai hay những dữ liệu hay tệp tin kia chắc chắn là vi phạm đạo đức và pháp lý. Nhưng ở đây, tất cả đều đến từ các nền tảng công khai hoặc nửa công khai, nơi người dùng chủ động tải bài lên. Bọn tôi không xâm nhập, không thu thập trái phép, mà chỉ âm thầm thu thập tài nguyên mở đã nằm ngoài vòng kiểm soát của nhà trường và hệ thống chính của Turnitin.
#2 Các bộ kiểm tra AI vẫn có sai sót mà, và không bộ kiểm tra AI nào chính xác 100% cả. Vấn đề này tôi đồng ý, nhưng như đã nói ở trên thì các bộ quét chỉ là điểm khởi đầu và nếu bạn nói rằng máy có thể sai thì đúng rồi, tôi đồng ý. Nhưng nếu sau đó người viết không thể bảo vệ được nguồn trích dẫn, không truy được dữ liệu, và bảng kết quả sai căn bản về thống kê thì lúc đó vấn đề không còn nằm ở AI nữa, mà nằm ở bản chất học thuật của bài viết.
#3 Bài viết cũ tôi có tình dắt mũi! Thật ra tôi muốn dắt bạn đến căn phòng nhỏ ở Nam Kinh hơn là dắt mũi bạn bởi vì tôi đã nói là chấp nhận ý kiến trái chiều, và sẽ trả lời mọi phản biện nghiêm túc. Nhưng nếu bạn chỉ thấy dắt mũi mà không thấy logic, không thấy số liệu, không thấy dẫn chứng thì có lẽ bạn không đọc kỹ hoặc tôi chưa đưa ra bằng chứng thuyết phục và sẽ đăng thêm rất nhiều bằng chứng khác.
#4 Việc tôi làm ảnh hưởng đến danh dự của các trường và các trường có thể coi đây là hành động bôi nhọ thì tôi chỉ có thể nói: sự thật không bôi nhọ ai cả. Chỉ khi sự thật bị giấu đi thì mới trở thành cái tát vào danh dự. Nếu một trường hay tạp chí để hàng trăm bài có AI, dữ liệu giả, trích dẫn sai lọt qua mà không ai kiểm duyệt thì người làm mất danh dự không phải là tôi. Và nếu bạn nói trường A hoặc trường B muốn làm việc thì tôi cũng nói lại luôn: MỘT KHI ĐÃ NHẮC TÊN THÌ BỌN TÔI ĐÃ CÓ BẰNG CHỨNG MỚI NHẮC, VÀ BẰNG CHỨNG SẼ ĐƯỢC TRÌNH BÀY NHƯ HÌNH.
#5 Có bạn vào trang cá nhân của ông anh này (anh tôi) và nói chắc ông này quảng cáo bán AI.
Ối dồi ôi, ối dồi ôi,
Không có trình phản biện nên rình trang cá nhân của người ta rồi chụp mũ hả bạn?
Tài khoản này CHƯA BAO GIỜ bán hay quảng cáo bất cứ thứ gì, tất cả nội dung viết đều có ý muốn chia sẻ tài nguyên miễn phí (như bọn tôi làm tài khoản Gemini Pro và Ultra tặng miễn phí chứ có lấy công gì đâu!!!). Nhưng vấn đề AI này nó nghiêm túc tới mức bọn tôi không thể làm ngơ vì nó ảnh hưởng đến một thế hệ sinh viên và học thuật. Chỉ vì bọn tôi biết cách dùng AI và chia sẻ miễn phí không có nghĩa là chúng tôi cổ vũ chuyện dùng AI để gian lận.
=================================
Để tôi kết thế này, hiện tại nếu mỗi ngày đăng một bài VAR các bài báo khoa học làm giả trích dẫn, giả dữ liệu trong cơ sở dữ liệu của bọn tôi như hình thì từ đây đến cuối năm nay cũng không hết.
Quan điểm của bọn tôi vẫn như một đó là, bọn tôi không muốn hù dọa hay chèn ép bất kỳ, bọn tôi chỉ muốn đặt lại một tiêu chuẩn tối thiểu cho liêm chính khoa học đó là không bịa dữ liệu, không chế trích dẫn.
Liêm hay không thì do bạn quyết định, nhưng không liên quan lắm nhưng mà bạn có Liêm thì T1 mới thắng được GenG, anh 7 mới vô địch được WC, và Lakers mới vô địch NBA trước khi LeBron giải nghệ!
À bạn nào đọc xong không hiểu rồi nói tôi viết văn dắt mũi thì tôi có quen bà chị rất dễ thương tên Hường Nương Nương, để dắt bạn đến chị ấy đọc từng chữ cho bạn nhé?
Shared link: https://drive.google.com/drive/folders/1EQp7O8Uky2xXO_f3K6jgTGDKnUScJK08?usp=sharing
Statistics:
Likes: 496, Shares: 129, Comments: 59
Like Reactions: 387, Haha Reactions: 80, Wow Reactions: 9, Love Reactions: 15, Sad Reactions: 2, Angry Reactions: 1