Nguyễn Phước Duy – 2025-07-12 07:30:38
Chào các bạn lại là tôi Duy đây!
Hôm nay tôi cho các bạn xem loạt 4 bài báo khoa học trên VNU Journal of Foreign Studies Vol 41 năm 2025 có trích dẫn GIẢ, kết quả có nhiều nghi vấn, hoặc trích dẫn SAI (tức là nhét chữ vào văn của tác giả gốc), có tỷ lệ AI rất cao (trên 50%).
Đây chỉ là 4 bài báo trong số nhiều (có thể hơn 10) bài được phát hiện trên VNU Journal of Foreign Studies từ 2023 (các bài khác tôi sẽ làm nội dung và ảnh đăng sau), và ngạc nhiên hơn là có cả Tiến Sĩ, Trưởng khoa là tác giả thứ nhất của các bài báo này.
Bài này gồm ba phần là: (1) giải thích các bài có trích dẫn giả, (2) lưu ý về dữ liệu 300,00 bài và hơn 1,000 tệp mới từ 2023 đến 2024 (không trùng lặp với tệp cũ).
1️⃣ Phân Tích Các Bài Báo Khoa Học Có Hành Vi Giả Trích Dẫn
Đây là đường dẫn Google Drive với bằng chứng:
[https://drive.google.com/drive/folders/1uZz6MSpZk3vhNM5A3ar_UOtROZwKs-7g?usp=sharing](https://drive.google.com/drive/folders/1uZz6MSpZk3vhNM5A3ar_UOtROZwKs-7g?usp=sharing)
➡️ Đầu tiên là bài báo của tác giả Vu Hai Ha có hơn 70% là GIẢ và không thể tìm thấy bằng hệ thống DOI, Google Scholar, hay cả hệ thống tìm kiếm bài báo khoa học ở Việt Nam cũng như quốc tế (xin hãy xem Hình 1, Hình 2, và Hình 3 để biết thêm chi tiết hoặc vào đường dẫn Google Drive ở trên để xem trực tiếp bài báo).
Ngoài vấn đề về trích dẫn, dữ liệu thống kê trong Table 4 trong bài của tác giả Vu Hai Ha cũng gây nhiều nghi vấn. Trong một bảng báo cáo, mean được ghi là 2.80 với độ lệch chuẩn 1.12, nhưng phần diễn giải lại sử dụng giá trị 2.81 và 1.13 (Hình 4).
Tuy nhiên, kết quả từ mô phỏng Monte Carlo với n = 53 cho thấy chỉ có hai giá trị mean và độ lệch chuẩn có thể xảy ra gần khu vực đó là (2.811, 1.128) và (2.792, 1.116). Điều này có nghĩa là gì? Tôi nghĩ (theo ý kiến cá nhân) có một sự không nhất quán về cách làm tròn dẫn đến việc bảng số liệu một đường, diễn giải lại dùng một số khác (Hình 5).
Một ví dụ khác là Table 4 cho ba giá trị trung bình là 3.00, 3.01, và 3.02, nhưng nếu nhân với n = 53 thì chỉ có 3.00 * 53 = 159 tròn và 3.02 * 53 = 160.06 là gần các tổng nguyên có thể chấp nhận, còn 3.01 * 53 = 159.53 không tương ứng với bất kỳ tổng điểm nguyên nào. Hay nói ngược lại là nếu tổng tất cả dữ liệu Likert là 159 thì mean bằng 3, là 160 thì mean bằng 3.0189, là 161 thì mean là 3.0378.
Với tổng Likert là 160 có mean bằng 3.0189 thì có phải tác giả hoặc dùng 3.01 nếu làm tròn xuống hoặc 3.02 nếu làm tròn gần nhất chứ làm sao mà có hai giá trị 3.01 và 3.02 cùng lúc trong bảng kết quả Table 4? Nếu bạn nào hiểu xin hãy giải thích cho tôi điểm này!
➡️ Một bài khác CÙNG SỐ BÁO của hai tác giả Lai Thi Khanh Ly và Trinh Hong Linh cũng có vài trích dẫn giả (Hình 6 và Hình 7). Ngoài ra, thì hai tác giả này cũng trích dẫn sai với nội dung và ý nghĩa của bài báo gốc (Hình 8).
Ví dụ Ly và Linh nói là bài báo của Rudolph và cộng sự (2023) báo cáo rằng ChatGPT giúp sinh viên trong việc cải thiện độ chính xác về ngữ pháp hay cấu trúc câu. Nhưng Rudolph **KHÔNG **nói như vậy đối với ngôn ngữ được tạo ra từ ChatGPT, và trên thực tế, thử nghiệm của chính các tác giả khi yêu cầu công cụ này viết một bài luận bằng tiếng Trung đã cho ra kết quả bị đánh giá là thiếu cấu trúc và ngữ pháp kém (câu gốc là “the generated answer depicted a scenario accordingly, the essay lacked structure and was grammatically poor”).
➡️ Bài thứ 3 của TS. Huynh Anh Tuan (Phó Tổng Biên tập Tạp chí Nghiên cứu Nước ngoài, Trưởng khoa Sau đại học của Trường Đại học Ngoại ngữ – Đại học Quốc gia Hà Nội) cũng có trích dẫn GIẢ (Hình 9 và 10).
Ví dụ cụ thể là thầy Tuan trích dẫn một bài báo **KHÔNG CÓ THẬT** của Vo & Mai Nguyen (2010). Điều buồn cười là tạp chí Vietnam Journal of Education (VJE) xuất bản số đầu tiên vào quý 4 năm 2017 mà đã có tận bài báo trên Tạp chí này từ 2010 cơ á?
Nguồn kiểm chứng là VJE xuất bản số đầu tiên năm 2017 ở đây, và bạn cũng có thể vào mục About Us của VJE để kiểm chứng:
[https://tapchikhqlgd.edu.vn/2023/04/21/khai-truong-he-thong-xuat-ban-tap-chi-mo-vje-vn-theo-chuan-quoc-te-cua-vietnam-journal-of-education/](https://tapchikhqlgd.edu.vn/2023/04/21/khai-truong-he-thong-xuat-ban-tap-chi-mo-vje-vn-theo-chuan-quoc-te-cua-vietnam-journal-of-education/)
➡️ Bài cuối cùng của tác giả Doan Thi Thu Phuong thì không hẳn là trích dẫn giả, nhưng phần trích dẫn trực tiếp và mục trích dẫn có nhiều vấn đề cần được quan tâm.
Đầu tiên thì tác giả Phuong có trích dẫn một câu trực tiếp từ Hsu (1973) dịch thuật ý của tác giả Yen Fu thế này: “A translation that is faithful but not expressive is no translation at all” (p. 4). Nhưng câu gốc của tác giả Hsu dịch dùng từ “comprehensible” chứ không phải “expressive” và câu dịch, và từ “expressive” được nhiều nhóm tác giả dịch và dùng hơn, và nếu tác giả Phuong muốn trích dẫn trực tiếp từ câu có từ “expressive” nên đưa nguồn trích dẫn từ các tác giả khác dùng “expressive.”
→ Vậy nên chỗ này tuy nhỏ nhưng theo ý tôi là nếu trích dẫn trực tiếp thì nên tôn trọng nguyên tác của tác giả Hsu dịch là “comprehensible” (達, da) (Hình 11).
Tác giả Phuong cũng trích dẫn nội dung không liên quan từ bài của O’Brien (2011) vì bài viết của O’Brien (2011) tập trung vào việc định nghĩa, lịch sử, động lực và vai trò của công nghệ trong dịch thuật cộng tác chứ KHÔNG đi sâu vào các tiêu chí đánh giá chất lượng cụ thể như “cognitive ergonomics” và “usability” mà tác giả Phuong nhét chữ (Hình 12).
2️⃣ Dữ Liệu 300,000 Tệp Đâu Rồi?
Đây nè, để tôi gởi bạn tiếp 1000 tệp (không trùng lặp với 1000 tệp cũ). Hôm nay T1 thắng nên kiên nhẫn tải lên thêm 1000 bài, ngày mai T1 vô địch sẽ tải lên 1000 bài tiếp. Sở dĩ không thể tải lên hết bởi vì nếu tải lên mà nó một tệp bị lỗi thì nó sẽ bị ngưng!
[https://drive.google.com/drive/folders/1d1-3vC3GdbY2xBslQrdtbQkg7HVEMc4n?usp=sharing](https://drive.google.com/drive/folders/1d1-3vC3GdbY2xBslQrdtbQkg7HVEMc4n?usp=sharing)
Ở bài đầu tiên thì tôi đăng đường dẫn Drive và ghi khẳng định là các tệp này có dùng AI, nhưng xin được đính chính (cảm ơn Người Ẩn Danh 841 đã chỉ ra điểm sai), là các tệp này có khả năng cao dùng AI để viết chứ không thể khẳng định chắc chắn được.
Một số câu hỏi và trả lời:
➡️ Ở đâu tôi có 300,00 tệp tin này? Xin bạn đọc lại bài 1 (nhấn vào tên tôi trong nhóm và kéo xuống dưới cùng).
➡️ 300,000 tệp tin này có gì? Có đủ loại văn từ bài nghiên cứu khoa học, luận văn tốt nghiệp, báo cáo thực tập, bài báo khoa học, bài tập lớn, nhỏ mà người ta muốn kiểm tra nên đã mua tài khoản các kênh Turnitin lậu để kiểm tra (đã bị bọn tôi gắn … để kiểm soát).
➡️ Đăng 300,000 bài lên thì lộ thông tin người ta thì sao? Để tôi lấy ví dụ thế này cho bạn hiểu. Bây giờ bạn dùng Windows l.ậ.u thay vì bỏ tiền mua bản quyền thì bạn chịu trách nhiệm với máy tính của mình. Tất cả nội dung thu thập được đều thông qua các cổng Turnitin KHÔNG CHÍNH THỐNG, tức là người nộp bài đã chủ động đưa bài của mình lên các nền tảng đó, chấp nhận rủi ro bị lưu trữ, quét.
➡️ Có bạn nói đăng nói có 300,000 tệp liệu có đọc hết chưa, và mới đăng chơi đến 10 bài bốc thôi mà chưa khẳng định được điều gì.
Thật ra 300,00 bài chỉ là để cho các bạn xem.
→ Các bài báo khoa học bị chỉ điểm ở trên và bài trước nằm ngoài 300,000 tệp tin này (chỉ có phần lớn các bài của sinh viên mới nằm trong 300,000 tệp này). Các bài báo khoa học trên bị nêu tên ở phía trên bởi vì bọn tôi đã làm ra Agentic AI để tải bài báo, quét AI (dùng API của Turnitin), truy nguồn gốc của các bài báo trích dẫn (dùng LLM thông qua Google Scholar, hệ thống DOI), và nếu bài báo có tỷ lệ AI cao sẽ được đưa qua một Agentic AI khác (vì khác công cụ AI để đọc dữ liệu) để tải tất cả các bài báo được trích dẫn về và lập sơ đồ tư duy (giống như NotebookLM) để phân tích xem trích dẫn có liên quan hay không.
Phần kết thì tôi hát cho bạn bài này:
Trẻ con sa mạc
truyền tai nhau bài đồng dao:
GIẢ có nghĩa là FAKE,
còn người làm GIẢ trích dẫn,
GIẢ số liệu, GIẢ nội dung
trong nghiên cứu khoa học
mình gọi họ là FAKER!
Shared link: https://drive.google.com/drive/folders/1uZz6MSpZk3vhNM5A3ar_UOtROZwKs-7g?usp=sharing
Statistics:
Likes: 678, Shares: 129, Comments: 23
Like Reactions: 481, Haha Reactions: 97, Wow Reactions: 72, Love Reactions: 13, Sad Reactions: 11, Angry Reactions: 2