Les chatbots IA dévorent vos données personnelles : voici les pires contrevenants

Most AI chatbots devour your user data - these are the worst offenders

Les chatbots IA dévorent vos données personnelles : voici les pires contrevenants

Comme beaucoup de gens aujourd'hui, vous pouvez vous tourner vers l'IA pour obtenir des réponses, générer du contenu ou recueillir des informations. Mais comme on dit, rien n'est gratuit. Dans le cas de l'IA, le prix à payer, ce sont vos données personnelles. Une nouvelle étude de Surfshark, un service de VPN et de sécurité, révèle quels types de données les différentes IA collectent et lesquelles en récupèrent le plus.

Pour son rapport, Surfshark a analysé 10 chatbots IA populaires : ChatGPT, Claude AI, DeepSeek, Google Gemini, Grok, Jasper, Meta AI, Microsoft Copilot, Perplexity, Pi et Poe. L'analyse s'est basée sur les détails de confidentialité de chaque application sur l'App Store d'Apple ainsi que sur les politiques de confidentialité de DeepSeek et ChatGPT. L'objectif était de déterminer combien de types de données chaque application collecte, si ces données sont liées à l'utilisateur et si l'application utilise de la publicité tierce.

Surfshark s'est concentré sur 35 types de données différents, notamment les informations de contact, la santé et la forme physique, les informations financières, la localisation, les données sensibles, les contacts, le contenu utilisateur, l'historique, les identifiants, les diagnostics, les données d'utilisation et les achats. Par exemple, les données sensibles incluent l'origine ethnique, l'orientation sexuelle, des informations sur la grossesse, un handicap, des convictions religieuses ou philosophiques, une appartenance syndicale, des opinions politiques, des données génétiques ou biométriques.

Les 10 applications IA analysées collectent toutes des données utilisateur. En moyenne, elles en récupèrent 13 types sur 35. Environ 45 % des applications collectent votre localisation, et près de 30 % suivent vos données pour les relier à des informations tierces afin d'afficher des publicités ciblées ou de les vendre à des courtiers en données.

Selon l'étude, Meta AI est le pire contrevenant, collectant 32 types de données sur 35, soit 90 %. C'est la seule application à récupérer des données financières, de santé ou sensibles. Meta AI et Copilot sont les seules à utiliser des données liées à l'identité de l'utilisateur pour afficher des publicités tierces. Meta peut collecter jusqu'à 24 types de données à cette fin.

Google Gemini arrive en deuxième position, avec 22 types de données collectées, dont la localisation précise, les informations de contact, le contenu utilisateur, les contacts téléphoniques, l'historique de recherche et de navigation. Poe, Claude et Copilot complètent le top 5, collectant respectivement 14, 13 et 12 types de données. Poe et Copilot utilisent l'ID de l'appareil pour suivre l'utilisateur et vendre ses données à des courtiers.

DeepSeek, une IA chinoise, se classe sixième avec 11 types de données collectées, dont l'historique des discussions. Cependant, deux problèmes majeurs se posent : d'une part, les résultats peuvent être censurés en raison des restrictions chinoises, et d'autre part, les données sont envoyées à China Mobile, une entreprise publique chinoise interdite aux États-Unis pour des raisons de sécurité nationale. De plus, DeepSeek conserve les données sur des serveurs en Chine, ce qui pose des risques de fuite, comme en témoigne un piratage ayant exposé plus d'un million d'historiques de discussions.

ChatGPT, avec 10 types de données collectées, offre des options pour limiter l'utilisation des données, comme les discussions temporaires supprimées après 30 jours ou la possibilité de refuser l'utilisation des données pour l'entraînement. Enfin, Grok, Pi et Jasper ferment la marche, collectant respectivement 7, 5 et 5 types de données. Jasper utilise notamment les ID d'appareil pour diffuser des publicités ciblées.

La collecte de données est une pratique courante, mais des moyens existent pour la limiter. Il est essentiel de consulter les politiques de confidentialité et les paramètres des applications IA pour mieux contrôler ses données personnelles.

Phần lớn chatbot AI 'ngốn' dữ liệu người dùng: Đây là những 'kẻ phạm tội' tồi tệ nhất

Giống như nhiều người hiện nay, bạn có thể sử dụng AI để trả lời câu hỏi, tạo nội dung hoặc thu thập thông tin. Nhưng như người ta vẫn nói, không có bữa trưa nào miễn phí. Đối với AI, cái giá phải trả chính là dữ liệu cá nhân. Một báo cáo mới từ dịch vụ VPN và bảo mật Surfshark đã phân tích loại dữ liệu mà các AI thu thập từ người dùng và những nền tảng nào thu thập nhiều nhất.

Surfshark đã nghiên cứu 10 chatbot AI phổ biến gồm: ChatGPT, Claude AI, DeepSeek, Google Gemini, Grok, Jasper, Meta AI, Microsoft Copilot, Perplexity, Pi và Poe. Báo cáo kiểm tra chi tiết quyền riêng tư của mỗi ứng dụng trên App Store của Apple cùng chính sách bảo mật của DeepSeek và ChatGPT. Mục tiêu là xác định số lượng loại dữ liệu thu thập, liệu có liên kết với người dùng hay không và ứng dụng có sử dụng quảng cáo bên thứ ba.

Nghiên cứu tập trung vào 35 loại dữ liệu khác nhau, bao gồm thông tin liên hệ, sức khỏe, tài chính, vị trí, dữ liệu nhạy cảm, danh bạ, nội dung người dùng, lịch sử, định danh, chẩn đoán, dữ liệu sử dụng và giao dịch. Ví dụ, dữ liệu nhạy cảm gồm chủng tộc, xu hướng tính dục, thai sản, khuyết tật, tín ngưỡng, quan điểm chính trị, thông tin di truyền hoặc sinh trắc học.

Tất cả 10 ứng dụng AI đều thu thập một số dữ liệu người dùng, trung bình 13/35 loại. Khoảng 45% ứng dụng thu thập vị trí, gần 30% theo dõi dữ liệu để liên kết với bên thứ ba nhằm hiển thị quảng cáo mục tiêu hoặc bán cho công trình dữ liệu.

Theo Surfshark, Meta AI dẫn đầu với 32/35 loại dữ liệu (90%). Đây là ứng dụng AI duy nhất thu thập thông tin tài chính, sức khỏe và dữ liệu nhạy cảm. Chỉ Meta AI và Copilot sử dụng dữ liệu định danh người dùng để hiển thị quảng cáo bên thứ ba, với Meta thu thập tới 24 loại dữ liệu cho mục đích này.

Google Gemini đứng thứ hai với 22 loại dữ liệu, bao gồm vị trí chính xác, thông tin liên hệ, nội dung người dùng, danh bạ, lịch sử tìm kiếm và duyệt web. Poe, Claude và Copilot lần lượt thu thập 14, 13 và 12 loại dữ liệu. Poe và Copilot nằm trong số ít ứng dụng sử dụng ID thiết bị để theo dõi người dùng nhằm bán dữ liệu hoặc hiển thị quảng cáo mục tiêu.

DeepSeek - AI Trung Quốc - xếp thứ 6 với 11 loại dữ liệu, bao gồm lịch sử trò chuyện. Tuy nhiên, DeepSeek có hai vấn đề: kết quả có thể bị kiểm duyệt do quy định tại Trung Quốc và dữ liệu được gửi đến China Mobile - công ty viễn thông nhà nước bị Mỹ cấm hoạt động từ 2019 vì lo ngại an ninh. DeepSeek cũng từng bị rò rỉ hơn một triệu bản ghi trò chuyện và khóa API.

ChatGPT thu thập 10 loại dữ liệu nhưng không theo dõi người dùng hay dùng quảng cáo bên thứ ba. Người dùng có thể chọn chế độ trò chuyện tạm thời (tự xóa sau 30 ngày) hoặc yêu cầu không sử dụng dữ liệu cá nhân để đào tạo AI. Grok, Pi và Jasper thu thập ít dữ liệu nhất (7, 5 và 5 loại), nhưng Jasper vẫn sử dụng ID thiết bị để gửi quảng cáo mục tiêu.

Thu thập dữ liệu người dùng là thực tế phổ biến không chỉ với AI mà còn ở ứng dụng di động, mạng xã hội và công cụ tìm kiếm. Tuy nhiên, người dùng có thể chủ động bảo vệ thông tin bằng cách kiểm tra kỹ chính sách bảo mật và cài đặt riêng tư trên các nền tảng AI.