Perdus dans la Traduction : Comment la Modération de Contenu Laisse les Locuteurs Tamouls en Ligne à l'Abandon | TechPolicy.Press

Lost in Translation: How Content Moderation Fails Tamil Speakers Online | TechPolicy.Press

Perdus dans la Traduction : Comment la Modération de Contenu Laisse les Locuteurs Tamouls en Ligne à l'Abandon | TechPolicy.Press

Les plateformes technologiques modèrent le contenu dans de nombreuses langues, mais elles manquent souvent de ressources pour les langues autres que l'anglais et d'autres langues majeures. Ce problème affecte de manière disproportionnée les utilisateurs des pays du Sud, comme le démontre une étude récente sur le tamoul, une langue parlée par plus de 80 millions de personnes. Tech Policy Press explore comment le statut de "langue à faible ressource" du tamoul entrave la modération en ligne et affecte la liberté d'expression.

Le tamoul, bien que largement parlé en Asie du Sud et dans les communautés de la diaspora, souffre d'un manque de données de qualité pour développer des systèmes automatisés robustes. Cette limitation technique est aggravée par son histoire politique complexe, notamment en Sri Lanka où des décennies de guerre civile ont restreint son expression. En Inde, les locuteurs tamouls résistent aux politiques linguistiques favorisant l'hindi et l'anglais, perçues comme une menace pour leur identité culturelle.

Une enquête menée auprès de 147 utilisateurs fréquents des réseaux sociaux en Inde et au Sri Lanka, complétée par 17 entretiens qualitatifs, révèle des stratégies pour contourner la modération. Les utilisateurs mélangent souvent le tamoul avec l'anglais ou utilisent des caractères latins pour faciliter la publication. Certains recourent à l'"algospeak" (mots codés) ou floutent des symboles sensibles pour éviter les censures.

Les grandes entreprises technologiques adoptent généralement une approche "globale" de modération, souvent insensible aux nuances linguistiques. Le contenu est traduit automatiquement en anglais, ce qui entraîne des erreurs, surtout pour des langues comme le tamoul. En revanche, certaines entreprises indiennes privilégient une modération localisée, ajustant leurs politiques et formant des modérateurs compétents en tamoul. Cependant, cette approche est coûteuse et rarement mise en œuvre.

La majorité des répondants estiment que leurs opinions politiques sont censurées via des politiques de modération trop larges. Certains soupçonnent un "shadowbanning" (limitation invisible de leur portée) lorsqu'ils utilisent des symboles ou mots politiquement sensibles. Les plateformes, sous pression gouvernementale, appliquent des définitions vagues de "contenu nuisible", souvent motivées politiquement.

Dans un contexte de tensions entre l'Inde et le Pakistan, où la désinformation en ligne prolifère, la modération équitable devient cruciale. Aliya Bhatia, co-auteure du rapport, souligne l'importance de soutenir les équipes internes chargées des politiques linguistiques et de collaborer avec des organisations locales pour combler le manque de ressources.

Le rapport met en garde contre l'utilisation excessive d'outils automatisés pour les langues à faible ressource comme le tamoul. Bhatia insiste sur la nécessité de consulter des experts avant de déployer ces technologies, afin d'éviter de porter atteinte à la liberté d'expression. En conclusion, une approche collaborative et localisée est essentielle pour une modération plus juste et efficace.

Lạc Lối Trong Bản Dịch: Sự Thất Bại Của Kiểm Duyệt Nội Dung Với Cộng Đồng Tamil Trực Tuyến

Các nền tảng công nghệ lớn đang thất bại trong việc kiểm duyệt nội dung cho cộng đồng nói tiếng Tamil - ngôn ngữ của 80 triệu người nhưng lại thiếu nguồn lực hỗ trợ. Bài báo này phân tích những hệ lụy từ sự thiếu đầu tư vào ngôn ngữ thiểu số và cách nó đe dọa tự do ngôn luận trong bối cảnh chính trị phức tạp tại Nam Á.

Tiếng Tamil, dù phổ biến thứ 18 toàn cầu, bị xếp vào nhóm 'ngôn ngữ ít tài nguyên' do thiếu dữ liệu chất lượng để phát triển hệ thống kiểm duyệt tự động. Tình trạng này trở nên trầm trọng hơn bởi lịch sử bị đàn áp ngôn ngữ tại Sri Lanka và Ấn Độ, nơi các sự kiện như đốt thư viện Jaffna đã xóa sổ hàng trăm ngàn văn bản Tamil quý giá.

Nghiên cứu của Trung tâm Dân chủ và Công nghệ (CDT) dựa trên khảo sát 147 người dùng mạng xã hội và 17 cuộc phỏng vấn chuyên sâu với nhân viên kiểm duyệt, phát hiện ba vấn đề chính. Thứ nhất, người dùng Tamil thường xuyên phải sáng tạo cách viết lai giữa Tamil và tiếng Anh, hoặc dùng từ mã để né hệ thống kiểm duyệt thô sơ.

Thứ hai, các công ty công nghệ phương Tây áp dụng chính sách kiểm duyệt 'ngôn ngữ trung lập', dịch máy nội dung sang tiếng Anh mà không cung cấp ngữ cảnh gốc cho người kiểm duyệt. Trong khi đó, một số nền tảng Ấn Độ lại đầu tư vào đội ngũ kiểm duyệt am hiểu văn hóa địa phương, dù giải pháp này tốn kém hơn nhiều.

Thứ ba, phần lớn người được hỏi cảm thấy các chính sách kiểm duyệt quá rộng đang bóp nghẹt tự do ngôn luận, đặc biệt với nội dung chính trị nhạy cảm. Nhiều người nghi ngờ bị 'cấm bóng' (shadowban) khi sử dụng biểu tượng hay từ ngữ mang tính chính trị.

Báo cáo chỉ ra rằng các nền tảng thường nhượng bộ áp lực từ chính phủ Ấn Độ và Sri Lanka, nơi luật pháp mơ hồ về định nghĩa 'nội dung độc hại' dễ bị lợi dụng vì mục đích chính trị. Điều này càng nghiêm trọng trong bối cảnh xung đột biên giới Ấn Độ - Pakistan, khi chiến tranh thông tin trực tuyến bùng nổ.

Aliya Bhatia, đồng tác giả nghiên cứu, đề xuất các công ty nên hợp tác với tổ chức địa phương để bù đắp thiếu hụt tài nguyên. 'Thay vì tự xây dựng mọi thứ từ đầu, hãy tạo quy trình đánh giá và triển khai các sáng kiến từ cộng đồng', bà nói với Tech Policy Press.

Báo cáo cảnh báo việc lạm dụng công cụ tự động cho ngôn ngữ như Tamil sẽ gây hậu quả khôn lường. Bhatia nhấn mạnh: 'Trước khi mở rộng các công cụ có nguy cơ đe dọa tự do ngôn luận, cần tham vấn chuyên gia và thử nghiệm kỹ lưỡng.'

Giải pháp cân bằng giữa kiểm duyệt hiệu quả và tôn trọng đa ngôn ngữ vẫn là thách thức lớn, đòi hỏi sự đầu tư nghiêm túc từ các đại gia công nghệ và hợp tác chặt chẽ với cộng đồng địa phương.