La vérification collaborative des faits peut-elle vaincre la désinformation sur les réseaux sociaux ?

Can crowdsourced fact-checking curb misinformation on social media?

La vérification collaborative des faits peut-elle vaincre la désinformation sur les réseaux sociaux ?

Dans un discours prononcé en 2019 à l'Université de Georgetown, Mark Zuckerberg a déclaré ne pas vouloir que Facebook soit un "arbitre de la vérité". Pourtant, depuis lors, Meta, sa société, a utilisé plusieurs méthodes pour modérer les contenus et identifier les publications trompeuses sur ses plateformes comme Facebook, Instagram et Threads. Ces méthodes incluent des filtres automatiques pour détecter les contenus illégaux et malveillants, ainsi que des vérificateurs tiers qui examinent manuellement la validité des affirmations. Zuckerberg a reconnu que ces systèmes, bien que sophistiqués, ont conduit à une "censure excessive". Meta a donc annoncé la fin de son programme de vérification tiers aux États-Unis, le remplaçant par Community Notes, un système s'appuyant sur les utilisateurs pour signaler les contenus faux ou trompeurs.

Community Notes, initialement lancé sur Twitter sous le nom de Birdwatch, permet aux utilisateurs d'ajouter du contexte aux publications qu'ils jugent trompeuses. Les notes restent cachées jusqu'à ce qu'un consensus soit atteint entre des personnes aux opinions diverses. Un algorithme détermine quand ce seuil est atteint, rendant alors la note visible publiquement. Des chercheurs ont montré que ce système réduit efficacement la propagation de la désinformation, incitant même certains auteurs à retirer leurs publications.

Si l'approche collaborative semble prometteuse, la modération des contenus reste un défi complexe. Aucune solution unique ne peut tout résoudre. Il faut combiner plusieurs outils : vérificateurs humains, crowdsourcing et filtres algorithmiques. Chacun est adapté à différents types de contenus et doit fonctionner en synergie. Par exemple, les filtres automatiques sont rapides pour bloquer les informations les plus dangereuses, mais manquent de nuance. Les notes collaboratives, bien que plus lentes, exploitent l'intelligence collective. Les vérificateurs professionnels, bien que plus lents, offrent des analyses approfondies.

Des précédents existent, comme la lutte contre le spam email, largement vaincu grâce au crowdsourcing. De même, les modèles de langage (LLM) utilisent une approche graduée pour gérer les requêtes sensibles. Les plateformes sociales peuvent s'inspirer de ces méthodes. Les filtres automatiques bloquent les contenus manifestement dangereux, tandis que Community Notes et les vérificateurs humains traitent les cas plus subtils.

Cependant, Community Notes présente des limites. Les notes sont limitées à 500 caractères, contrairement aux analyses détaillées des vérificateurs professionnels. Ces derniers, formés pour décortiquer les techniques rhétoriques des campagnes de désinformation, apportent une expertise inégalée. Mais leur travail ne peut pas rivaliser en échelle avec le crowdsourcing. Heureusement, ces méthodes se complètent. Une étude a montré que Community Notes amplifie le travail des vérificateurs, touchant plus d'utilisateurs. Une autre a révélé que les deux approches ciblent différents types de comptes, avec Community Notes se concentrant sur les comptes influents.

Au final, la modération des contenus est un exercice d'équilibre. Les plateformes ne doivent ni abandonner cette mission délicate, ni se reposer sur une seule solution. Elles doivent expérimenter, apprendre de leurs échecs et affiner leurs stratégies. Comme le dit l'adage, la différence entre ceux qui réussissent et ceux qui échouent réside dans le nombre d'échecs surmontés. Ce contenu a été produit par l'Université Mohamed bin Zayed d'Intelligence Artificielle, et non par la rédaction du MIT Technology Review.

Kiểm chứng thông tin đám đông: Giải pháp mới ngăn chặn tin giả trên mạng xã hội?

Trong bối cảnh tin giả tràn lan, Meta - công ty mẹ của Facebook - đang chuyển hướng sang mô hình kiểm chứng thông tin đám đông thông qua tính năng Community Notes, thay thế cho đội ngũ kiểm chứng viên truyền thống. Bài viết phân tích hiệu quả của phương pháp này cùng những thách thức trong việc kiểm duyệt nội dung trên nền tảng mạng xã hội.

Năm 2019, Mark Zuckerberg tuyên bố Facebook không muốn trở thành "người phán xét sự thật". Tuy nhiên, Meta đã sử dụng nhiều biện pháp kiểm duyệt nội dung sai lệch trên các nền tảng như Facebook, Instagram và Threads. Các phương pháp bao gồm bộ lọc tự động phát hiện nội dung độc hại và đội ngũ kiểm chứng viên bên thứ ba.

Zuckerberg thừa nhận hệ thống kiểm duyệt phức tạp của Meta đã mắc nhiều sai lầm, dẫn đến "kiểm duyệt quá mức". Do đó, công ty quyết định chấm dứt chương trình kiểm chứng viên bên thứ ba tại Mỹ, thay thế bằng Community Notes - hệ thống dựa vào cộng đồng người dùng để đánh dấu nội dung sai lệch.

Community Notes bắt nguồn từ Twitter (nay là X) với tên gọi Birdwatch. Tính năng này cho phép người dùng thêm ngữ cảnh vào các tweet bị cho là sai lệch. Ghi chú chỉ hiển thị khi cộng đồng đạt được sự đồng thuận thông qua thuật toán đánh giá.

Nghiên cứu từ Đại học Illinois và Rochester cho thấy Community Notes trên X giúp giảm đáng kể sự lan truyền thông tin sai lệch. Meta đang áp dụng mô hình tương tự, mở ra triển vọng mới cho hơn 3 tỷ người dùng các sản phẩm của công ty.

Tuy nhiên, kiểm duyệt nội dung là vấn đề phức tạp không có giải pháp hoàn hảo duy nhất. Các chuyên gia khuyến nghị kết hợp nhiều phương pháp: bộ lọc tự động, kiểm chứng đám đông và đội ngũ kiểm chứng viên chuyên nghiệp. Mỗi phương pháp có ưu điểm riêng phù hợp với từng loại nội dung khác nhau.

Bộ lọc tự động nhanh chóng ngăn chặn nội dung nguy hiểm nhưng thiếu sự tinh tế. Community Notes dựa vào tri thức đám đông, tốc độ trung bình nhưng hiệu quả với nội dung có ảnh hưởng lớn. Kiểm chứng viên chuyên nghiệp cung cấp phân tích sâu nhưng không thể mở rộng quy mô như Community Notes.

Nghiên cứu cho thấy Community Notes và kiểm chứng viên bổ trợ lẫn nhau. Khi cùng đánh giá một bài đăng, kết luận của hai phương pháp thường tương đồng. Đặc biệt, kiểm chứng đám đông cũng được hưởng lợi từ phát hiện của các chuyên gia.

Bài học từ cuộc chiến chống thư rác và cách xử lý nội dung độc hại của các mô hình ngôn ngữ lớn (LLM) cho thấy tầm quan trọng của cách tiếp cận phân tầng. Các nền tảng cần kết hợp linh hoạt nhiều công cụ khác nhau tùy theo mức độ nguy hiểm của nội dung.

Kiểm duyệt nội dung là thách thức lớn vì liên quan đến việc xác định sự thật - điều không phải lúc nào cũng rõ ràng. Ngay cả sự đồng thuận khoa học cũng có thể thay đổi theo thời gian. Các nền tảng không nên từ bỏ nhiệm vụ này hay phụ thuộc quá mức vào một giải pháp duy nhất.

Theo giáo sư xử lý ngôn ngữ tự nhiên tại Đại học MBZUAI, chìa khóa thành công nằm ở việc không ngừng thử nghiệm, học hỏi từ thất bại và hoàn thiện chiến lược. Sự khác biệt giữa thành công và thất bại chính là ở số lần dám thử nghiệm và rút kinh nghiệm.

Nội dung bài viết được cung cấp bởi Đại học Mohamed bin Zayed về Trí tuệ Nhân tạo, không phải bởi ban biên tập MIT Technology Review. Các nghiên cứu và phân tích trong bài cung cấp cái nhìn toàn diện về tương lai của công tác kiểm duyệt nội dung trên mạng xã hội.