Minh Dang Doan – 2020-09-07 14:06:08
XÁC ĐỊNH CÁC NHÓM CỘNG TÁC TRONG XUẤT BẢN BÁO KHOA HỌC
Các nhóm tác giả có cộng tác nhiều với nhau thì thể hiện (khi xem các bài báo của họ) qua việc cùng đứng tên trong bài, hoặc cite bài của nhau trong các papers của mình. Cũng có những trường hợp lạm dụng, đưa nhiều references vào bài báo để tăng citations cho những người trong mạng lưới hợp tác của họ. Bằng cách phân tích citations của các nhà nghiên cứu, ta cũng có thể dò ra những nhóm cộng tác có thể đặt nghi vấn.
Xin giới thiệu một số chương trình giúp nhanh chóng tìm hiểu các mạng lưới hợp tác:
https://github.com/pablobarbera/scholarnetwork
Scholarnetwork giúp vẽ mối liên kết trong các mạng lưới dựa trên phân tích danh sách tác giả của các bài báo (code R).
https://github.com/doanminhdang/citationnetwork
Citationnetwork giúp thống kê việc cite bài lẫn nhau trong các mạng lưới (code Python).
Các chương trình trên chỉ phân tích số liệu, để giúp nhanh chóng thấy mối quan hệ giữa các tác giả qua co-authorships và citations. Khi muốn khẳng định việc hợp tác giữa họ có vấn đề hay không, thì chắc cần sàng lọc nội dung các bài báo, ví dụ như các references có thực sự cần thiết không.
Ví dụ cách sử dụng qua một case study: Tlili I. và Shafee A.
Từ trường hợp Iskander Tlili được nêu trong bài của Duong Tu (https://www.facebook.com/groups/LiemChinhKhoaHoc/permalink/324416925471813/), tôi phân tích thêm số liệu về nhà nghiên cứu này.
Hình 1 cho thấy collaboration network của Iskander Tlili, vẽ bằng chương trình Scholarnetwork, với dữ liệu là các bài báo có địa chỉ từ Việt Nam ở Scopus. Hình này cho thấy ngoài Tlili có một người khác có ảnh hưởng nhiều trong mạng lưới đó, là Ahmad Shafee.
Dữ liệu về các bài báo có liên quan đến Tlili và Shafee được lấy từ Scopus (xem hình 4, về các fields khi export dữ liệu từ Scopus), pool dữ liệu gồm có các bài có cite đến một số tác giả có cộng tác với họ. Dữ liệu này được xử lý tiếp bằng chương trình Citationnetwork.
Sau khi chạy lệnh thống kê tác giả (get_authors.py), cho thấy Tlili I. có affiliations ở các trường thuộc Saudi Arabia, Tunisia và Việt Nam. Shafee A. cũng có affiliations ở Kuwait, Malaysia, Úc, và Việt Nam.
Dựa trên mạng lưới ở hình 1, tôi làm tiếp thống kê quan hệ citations giữa nhóm 9 người này:
Tlili I. (https://www.scopus.com/authid/detail.uri?authorId=15842369800)
Shafee A. (https://www.scopus.com/authid/detail.uri?authorId=57202423343)
Nam N.D. (https://www.scopus.com/authid/detail.uri?authorId=57216456831)
Li Z. (https://www.scopus.com/authid/detail.uri?authorId=57199421651)
Babazadeh H. (https://www.scopus.com/authid/detail.uri?authorId=57211438972)
Sheikholeslami M. (https://www.scopus.com/authid/detail.uri?authorId=54880733100)
Manh T.D. (https://www.scopus.com/authid/detail.uri?authorId=57202505801)
Moradi R. (https://www.scopus.com/authid/detail.uri?authorId=39661183900)
Barzegar Gerdroodbary M. (https://www.scopus.com/authid/detail.uri?authorId=54790731500)
Sau khi chạy lệnh phân tích references (count_references.py) ở chương trình Citationnetwork, kết quả thống kê nằm ở hình 5 (lưu ý rằng bộ dữ liệu lấy từ Scopus có thể cũng không bao gồm hết các bài báo của họ). Từ hình này, dẫn đến một vấn đề: số lượng references trong các bài của họ rất cao, tính trung bình thì mỗi bài báo họ cite khoảng 50 bài. (ở lĩnh vực của tôi thì một bài báo thường cite khoảng trên dưới 30 bài)
Sau đó tôi chạy lại thống kê cho nhóm nhỏ hơn, gồm 6 người (bỏ ra Manh T.D., Moradi R., Barzegar Gerdroodbary M., do bộ dữ liệu ở đây không có đủ nhiều bài báo của họ). Kết quả như hình 6. Ở đây tôi tô màu cho cột self-cite + ring-cite, khoảng 10% references của các tác giả này là cite trong nhóm đó (tỷ lệ này chắc cũng bình thường, tuy nhiên vì tổng số references là cao, nên số lượt họ cite bài trong nhóm đó cũng cao theo).
Tiếp theo, nhận thấy Sheikholeslami M. được những người kia cite nhiều nhưng cite lại họ thì ít, tôi đoán Sheikholeslami M. là dạng GS đầu ngành trong chủ đề đó (Scopus cũng cho biết tác giả này có rất nhiều citations), nên thử loại tác giả này ra, làm lại thống kê cho 5 người. Kết quả ở hình 7.
Ở hình 7, tôi tô màu thêm những con số self-cite (màu xanh lá) để so sánh với ring-cite (màu xanh lơ).
Dữ liệu trong bảng ở hình 7 được dùng để vẽ các biểu đồ so sánh: hình 2 so sánh số lượng references (cite đến bài của bản thân, và cite đến nhóm nhỏ đó), hình 3 so sánh số lượng citations (lượng citations nhận được từ riêng nhóm nhỏ đó, so với tổng số citations mà Scopus ghi nhận).
Có thể thấy Ahmad Shafee và Zhixiong Li (Li Z.) cite bài của chính mình rất nhiều (những references đến các tác giả khác trong nhóm này thì phần lớn là những bài mà họ là đồng tác giả) và lượng citations từ nhóm này đóng góp nhiều vào tổng số citations của họ; còn Iskander Tlili, Nguyen Dang Nam, Houman Babazadeh thì tỷ lệ cite những người khác trong nhóm so với self-cite là nhiều hơn.
Qua thống kê ở đây, có thể đoán là có một nhóm tác giả xoay quanh Tlili I., Babazadeh H., Nam N.D., Li Z. hay viết bài và cite lẫn nhau. Vì không cùng lĩnh vực nghiên cứu nên tôi không đi sâu hơn review các bài của họ. Mọi người có thể dùng cách thống kê tương tự để tìm những nhóm cộng tác, và đánh giá các bài trong lĩnh vực của mình xem người ta có tận dụng đăng những bài chất lượng thấp để “boost” số citations không.
Shared link: https://github.com/pablobarbera/scholarnetwork
Statistics:
Likes: 96, Shares: 10, Comments: 38
Like Reactions: 82, Haha Reactions: 0, Wow Reactions: 4, Love Reactions: 9, Sad Reactions: 0, Angry Reactions: 0