Alméry Jacqueline – 2025-01-24 00:27:38
**Nghiên cứu cho thấy khoa học rác do AI tạo ra là một vấn đề lớn trên Google Scholar**
*Một nghiên cứu gần đây về công cụ tìm kiếm học thuật Google Scholar nêu bật vấn đề phổ biến về văn bản do AI tạo ra trong tài liệu học thuật, đặc biệt khi liên quan đến các chủ đề gây tranh cãi.*
Nghiên cứu khoa học do AI tạo ra đang gây ô nhiễm hệ sinh thái thông tin học thuật trực tuyến, theo một báo cáo đáng lo ngại được công bố trên Tạp chí Misinformation Review của Trường Harvard Kennedy.
Một nhóm các nhà nghiên cứu đã điều tra sự phổ biến của các bài báo có bằng chứng về văn bản được tạo ra một cách nhân tạo trên Google Scholar, một công cụ tìm kiếm học thuật giúp dễ dàng tìm kiếm các nghiên cứu được công bố trong lịch sử trên nhiều tạp chí học thuật.
Trong nghiên cứu, nhóm đã phân tích một mẫu các bài báo khoa học được tìm thấy trên Google Scholar có dấu hiệu sử dụng GPT. Các bài báo được chọn có chứa một hoặc hai cụm từ phổ biến mà các tác nhân đàm thoại (thường là chatbot) được hỗ trợ bởi LLM sử dụng. Sau đó, các nhà nghiên cứu đã điều tra mức độ mà các bài báo đáng ngờ đó được phân phối và lưu trữ trên internet.
“Nguy cơ về cái mà chúng ta gọi là ‘hack bằng chứng’ tăng lên đáng kể khi nghiên cứu do AI tạo ra được lan truyền trên các công cụ tìm kiếm”, Björn Ekström, nhà nghiên cứu tại Trường Khoa học Thư viện và Thông tin Thụy Điển, đồng tác giả của bài báo, cho biết trong một thông cáo của Đại học Borås. “Điều này có thể gây ra hậu quả rõ ràng vì các kết quả không chính xác có thể lan rộng hơn vào xã hội và có thể cũng lan rộng vào nhiều lĩnh vực hơn nữa”.
Nhóm nghiên cứu phát hiện ra rằng ít nhất hai phần ba số bài báo mà họ nghiên cứu được tạo ra thông qua việc sử dụng GPT nhưng không được tiết lộ. Trong số các bài báo bịa đặt bằng GPT, các nhà nghiên cứu phát hiện ra rằng 14,5% liên quan đến sức khỏe, 19,5% liên quan đến môi trường và 23% liên quan đến máy tính.
“Hầu hết các bài báo bịa đặt bằng GPT này đều được tìm thấy trong các tạp chí và bài báo nghiên cứu không được lập chỉ mục, nhưng một số trường hợp bao gồm nghiên cứu được công bố trên các tạp chí khoa học chính thống và biên bản hội nghị”, nhóm nghiên cứu viết.
Các nhà nghiên cứu đã nêu ra hai rủi ro chính do sự phát triển này gây ra. “Đầu tiên, sự phong phú của các ‘nghiên cứu’ bịa đặt xâm nhập vào tất cả các lĩnh vực của cơ sở hạ tầng nghiên cứu đe dọa làm quá tải hệ thống truyền thông học thuật và gây nguy hiểm cho tính liêm chính của tài liệu khoa học”, nhóm nghiên cứu viết. “Rủi ro thứ hai nằm ở khả năng gia tăng rằng nội dung có vẻ khoa học và thuyết phục thực chất được tạo ra một cách gian dối bằng các công cụ AI và cũng được tối ưu hóa để có thể được tìm thấy bằng các công cụ tìm kiếm học thuật công khai, đặc biệt là Google Scholar”.
Vì Google Scholar không phải là cơ sở dữ liệu học thuật nên công chúng có thể dễ dàng sử dụng khi tìm kiếm tài liệu khoa học. Điều đó thật tốt. Thật không may, công chúng khó có thể phân biệt được vàng thau khi nói đến các tạp chí có uy tín; ngay cả sự khác biệt giữa một bài nghiên cứu được bình duyệt và một bài báo đang viết dở cũng có thể gây nhầm lẫn. Bên cạnh đó, văn bản do AI tạo ra cũng được tìm thấy trong một số công bố được bình duyệt cũng như những bài viết ít được kiểm tra kỹ lưỡng, cho thấy rằng sản phẩm do GPT chế tạo đang làm vẩn đục toàn bộ hệ thống thông tin học thuật trực tuyến—không chỉ trong các công bố nằm ngoài hầu hết các kênh chính thức.
Đồng tác giả nghiên cứu Jutta Haider, cũng là nhà nghiên cứu tại Trường Khoa học Thư viện và Thông tin Thụy Điển, cho biết: “Nếu chúng ta không thể tin rằng nghiên cứu mà chúng ta đọc là xác thực, chúng ta có nguy cơ đưa ra quyết định dựa trên thông tin không chính xác”. “Nhưng đây không chỉ là vấn đề về hành vi sai trái trong khoa học mà còn là vấn đề về kiến thức truyền thông và thông tin”.
Statistics:
Likes: 162, Shares: 31, Comments: 10
Like Reactions: 128, Haha Reactions: 2, Wow Reactions: 4, Love Reactions: 1, Sad Reactions: 25, Angry Reactions: 0