Reddit poursuit Anthropic en justice pour utilisation illicite de ses données d'entraînement IA

Reddit sues Anthropic for allegedly not paying for training data

Reddit poursuit Anthropic en justice pour utilisation illicite de ses données d'entraînement IA

Reddit a engagé des poursuites judiciaires contre Anthropic, accusant la startup d'IA d'avoir utilisé illégalement les données du réseau social pour entraîner ses modèles sans accord de licence. La plainte, déposée mercredi devant un tribunal de Californie du Nord, affirme qu'Anthropic a violé les conditions d'utilisation de Reddit à des fins commerciales. Ce procès marque la première confrontation juridique entre un géant technologique et un fournisseur de modèles d'IA concernant les pratiques d'acquisition de données d'entraînement.

Reddit rejoint ainsi plusieurs éditeurs et créateurs ayant intenté des actions similaires contre des entreprises technologiques. Le New York Times a poursuivi OpenAI et Microsoft pour utilisation non autorisée de ses articles, tandis que l'humoriste Sarah Silverman et d'autres auteurs ont attaqué Meta en justice. L'industrie musicale a également engagé des procédures contre des startups spécialisées dans la génération IA de contenu audio et visuel.

« Nous ne tolérerons pas que des entités cherchant à profiter comme Anthropic exploitent commercialement le contenu de Reddit pour des milliards de dollars sans aucune contrepartie pour nos utilisateurs ni respect pour leur vie privée », a déclaré Ben Lee, directeur juridique de Reddit, dans un communiqué à TechCrunch. La plateforme a cependant conclu des accords avec d'autres acteurs de l'IA comme OpenAI et Google, encadrant strictement l'utilisation de ses données.

Selon les documents judiciaires, Reddit aurait contacté Anthropic pour lui signaler l'absence d'autorisation d'extraire ou d'utiliser son contenu, mais la startup aurait « refusé de coopérer ». Reddit accuse les robots d'Anthropic d'avoir ignoré les fichiers robots.txt de la plateforme et d'avoir continué à collecter des données plus de 100 000 fois en 2024 malgré des promesses contraires.

La plateforme réclame des dommages-intérêts compensatoires, la restitution des bénéfices tirés de l'utilisation illicite de son contenu, ainsi qu'une injonction interdisant à Anthropic toute exploitation future des données de Reddit. « Nous contestons les allégations de Reddit et nous défendrons vigoureusement », a répondu la porte-parole d'Anthropic, Danielle Ghighlieri, dans un courriel à TechCrunch.

Le PDG d'OpenAI, Sam Altman, détient 8,7% du capital de Reddit, ce qui fait de lui le troisième plus grand actionnaire de la plateforme. Il a siégé au conseil d'administration de l'entreprise, soulignant les liens complexes entre ces acteurs majeurs de l'IA et des réseaux sociaux.

Reddit kiện Anthropic vì sử dụng dữ liệu đào tạo AI không phép

Reddit đã đệ đơn kiện Anthropic với cáo buộc sử dụng dữ liệu từ trang web này để đào tạo mô hình AI mà không có thỏa thuận cấp phép hợp lệ. Vụ kiện được nộp lên tòa án Bắc California vào thứ Tư cho rằng việc Anthropic sử dụng dữ liệu của Reddit vào mục đích thương mại là trái phép và vi phạm điều khoản sử dụng. Đây là lần đầu tiên một gã khổng lồ công nghệ khởi kiện nhà cung cấp mô hình AI về vấn đề dữ liệu đào tạo.

Reddit gia nhập danh sách các nhà xuất bản đã kiện các công ty công nghệ với lý do tương tự. Trước đó, New York Times đã kiện OpenAI và Microsoft vì sử dụng bài báo để đào tạo AI không xin phép. Diễn viên hài Sarah Silverman cùng nhiều tác giả khác cũng kiện Meta vì dùng sách của họ đào tạo AI. Các nhà xuất bản âm nhạc và nghệ sĩ cũng có hành động pháp lý tương tự với các startup AI về âm thanh, video và hình ảnh.

"Chúng tôi sẽ không khoan nhượng cho những tổ chức vì lợi nhuận như Anthropic khai thác nội dung Reddit hàng tỷ đô mà không đền đáp gì cho người dùng hoặc tôn trọng quyền riêng tư của họ", Ben Lee, Giám đốc pháp lý Reddit, tuyên bố với TechCrunch. Đáng chú ý, Reddit đã ký thỏa thuận với các nhà cung cấp AI khác như OpenAI và Google, cho phép họ sử dụng dữ liệu Reddit với điều kiện bảo vệ lợi ích người dùng.

Theo hồ sơ kiện, Reddit khẳng định đã cảnh báo Anthropic về việc không được phép thu thập hay sử dụng nội dung từ trang web này, nhưng Anthropic "từ chối hợp tác". Reddit cáo buộc bot của Anthropic đã bỏ qua file robots.txt - chuẩn ngăn tự động thu thập dữ liệu, và tiếp tục thu thập dữ liệu hơn 100.000 lần trong năm 2024 dù tuyên bố ngừng.

Reddit yêu cầu Anthropic bồi thường thiệt hại, hoàn trả lợi nhuận thu được từ việc sử dụng dữ liệu trái phép, cùng lệnh cấm sử dụng nội dung Reddit trong tương lai. "Chúng tôi phản đối các cáo buộc của Reddit và sẽ bảo vệ mình một cách mạnh mẽ", người phát ngôn Anthropic Danielle Ghighlieri trả lời TechCrunch qua email.

Sam Altman, CEO OpenAI, sở hữu 8,7% cổ phần Reddit, là cổ đông lớn thứ ba và từng là thành viên hội đồng quản trị công ty. Mối quan hệ phức tạp này làm nổi bật sự đan xen giữa các ông lớn công nghệ và mạng xã hội trong kỷ nguyên AI.