Cloudflare révolutionne Internet : un coup dur pour les géants de l'IA

Cloudflare just changed the internet, and it's bad news for the AI giants

Cloudflare révolutionne Internet : un coup dur pour les géants de l'IA

Cloudflare, l'un des principaux réseaux de diffusion de contenu (CDN) d'Internet, a déclaré la guerre aux entreprises d'intelligence artificielle. À partir du 1er juillet, Cloudflare bloque par défaut les robots d'IA qui accèdent au contenu des sites web sans autorisation ni compensation. Ce changement répond à un problème réel : de nombreux propriétaires de sites, dont l'auteur de cet article, ont constaté que leurs sites étaient considérablement ralentis par les robots d'IA comme GPTBot d'OpenAI et ClaudeBot d'Anthropic. Ces robots génèrent un volume massif de requêtes automatisées, bien plus agressif que les robots des moteurs de recherche traditionnels.

Cloudflare agit au nom de ses deux millions de clients, représentant 20 % du web. Désormais, pour tout nouveau site inscrit à ses services, les robots d'IA seront automatiquement bloqués, sauf autorisation explicite du propriétaire. De plus, Cloudflare promet de détecter les robots "fantômes" qui tentent d'échapper à la détection grâce à l'analyse comportementale et au machine learning.

Cette mesure inverse la situation précédente, où les propriétaires de sites devaient explicitement refuser l'accès aux robots d'IA. Désormais, le blocage est la norme, et les entreprises d'IA doivent demander l'accès et préciser leurs intentions (formation de modèles, recherche, etc.) avant d'être autorisées. Cette décision fait suite aux plaintes des éditeurs, comme The Associated Press ou Condé Nast, qui accusent les entreprises d'IA d'exploiter leur contenu sans compensation ni consentement, parfois en ignorant les protocoles standards comme robots.txt.

Parallèlement, Cloudflare a lancé son programme "Pay Per Crawl", permettant aux éditeurs de fixer leurs tarifs pour les entreprises d'IA souhaitant scraper leur contenu. Ce système, actuellement en version bêta privée, utilise le code HTTP 402 ("Paiement requis") pour faciliter son intégration. Cette initiative vise à créer un modèle économique équitable pour tous : créateurs, consommateurs et entreprises d'IA.

Cette décision de Cloudflare pourrait rendre une grande partie du web inaccessible aux entreprises d'IA, à moins qu'elles ne négocient des licences. Nicholas Thompson, PDG de The Atlantic, souligne que les entreprises d'IA devront désormais négocier, alors qu'elles ont longtemps exploité le contenu sans conséquences. Cependant, des dirigeants comme Nick Clegg (Meta) estiment que payer pour le contenu pourrait "tuer l'industrie de l'IA".

Cette politique intervient alors que le trafic des sites d'actualités a chuté drastiquement avec l'essor de l'IA. Par exemple, Business Insider a perdu 55 % de son trafic entre 2022 et 2025. Sans action, The Atlantic pourrait voir son trafic Google tomber à zéro. Reste à voir si d'autres CDN, comme Akamai, suivront l'exemple de Cloudflare. Pour l'instant, l'ère du scraping illimité semble toucher à sa fin, du moins pour le cinquième du web transitant par Cloudflare.

Cloudflare thay đổi Internet: Tin xấu cho các ông lớn AI

Cloudflare, một trong những mạng phân phối nội dung (CDN) lớn nhất Internet, đã tuyên chiến với các công ty trí tuệ nhân tạo. Từ ngày 1/7, Cloudflare mặc định chặn các bot AI truy cập nội dung website mà không được phép hoặc bồi thường. Thay đổi này giải quyết một vấn đề thực tế: nhiều chủ website, bao gồm tác giả bài viết này, đã báo cáo rằng trang web của họ bị chậm đáng kể do các bot AI như GPTBot của OpenAI và ClaudeBot của Anthropic. Những bot này tạo ra lượng truy cập tự động khổng lồ, hung hãn hơn nhiều so với bot công cụ tìm kiếm truyền thống.

Cloudflare hành động thay mặt cho hơn 2 triệu khách hàng, chiếm 20% web toàn cầu. Giờ đây, với mọi website mới đăng ký dịch vụ, bot AI sẽ tự động bị chặn trừ khi chủ sở hữu cho phép rõ ràng. Ngoài ra, Cloudflare hứa hẹn phát hiện bot "lén lút" cố trốn tránh bằng phân tích hành vi và machine learning.

Quyết định này đảo ngược tình thế cũ khi chủ website phải chủ động từ chối bot AI. Giờ đây, chặn là mặc định, và các công ty AI phải xin phép, nêu rõ mục đích (huấn luyện mô hình, tìm kiếm...) trước khi được truy cập. Động thái này xuất phát từ phàn nàn của các nhà xuất bản như The Associated Press hay Condé Nast, những người cáo buộc công ty AI "đào mỏ" nội dung mà không bồi thường, đôi khi bỏ qua cả giao thức chuẩn như robots.txt.

Song song đó, Cloudflare ra mắt chương trình "Pay Per Crawl", cho phép nhà xuất bản tự đặt giá với công ty AI muốn thu thập dữ liệu. Hệ thống này hiện ở bản beta kín, sử dụng mã HTTP 402 ("Yêu cầu thanh toán") để dễ triển khai. Mục tiêu là tạo mô hình kinh tế công bằng cho mọi bên: người sáng tạo, người dùng và doanh nghiệp AI.

Quyết định của Cloudflare có thể khiến phần lớn web trở nên vô hình với AI, trừ khi họ đàm phán bản quyền. Nicholas Thompson, CEO The Atlantic, nhấn mạnh rằng các công ty AI giờ buộc phải đàm phán, sau nhiều năm lấy nội dung miễn phí. Tuy nhiên, lãnh đạo như Nick Clegg (Meta) cho rằng trả phí nội dung sẽ "giết chết ngành AI".

Chính sách mới ra đời khi lưu lượng truy cập trang tin tức sụt giảm nghiêm trọng do AI. Ví dụ, Business Insider mất 55% traffic từ 2022-2025. Nếu không hành động, The Atlantic có thể đối mặt traffic Google về zero. Liệu các CDN khác như Akamai có làm theo? Hãy đón chờ. Hiện tại, kỷ nguyên thu thập dữ liệu AI vô tận dường như đang kết thúc, ít nhất là với 1/5 web đi qua Cloudflare.