DeepSeek aurait utilisé Gemini de Google pour entraîner son dernier modèle d'IA

DeepSeek may have used Google’s Gemini to train its latest model

DeepSeek aurait utilisé Gemini de Google pour entraîner son dernier modèle d'IA

La semaine dernière, le laboratoire chinois DeepSeek a publié une version mise à jour de son modèle d'IA R1, qui obtient des résultats impressionnants sur plusieurs benchmarks de mathématiques et de codage. Bien que l'entreprise n'ait pas révélé la source des données utilisées pour l'entraînement, certains chercheurs soupçonnent qu'une partie proviendrait de Gemini, la famille de modèles d'IA de Google.

Sam Paech, un développeur basé à Melbourne spécialisé dans les évaluations d'"intelligence émotionnelle" pour l'IA, a partagé sur X ce qu'il présente comme des preuves que le dernier modèle de DeepSeek a été entraîné sur des sorties de Gemini. Selon lui, le modèle R1-0528 de DeepSeek privilégie des mots et expressions similaires à ceux utilisés par Gemini 2.5 Pro de Google.

Un autre développeur, créateur anonyme de l'outil d'évaluation "SpeechMap", a également noté que les traces de raisonnement du modèle DeepSeek ressemblaient fortement à celles de Gemini. Ce n'est pas la première fois que DeepSeek est accusé d'utiliser des données de modèles concurrents : en décembre, son modèle V3 s'identifiait parfois comme ChatGPT.

OpenAI aurait détecté des preuves que DeepSeek utilise la distillation, une technique consistant à extraire des données de modèles plus performants. Microsoft, partenaire d'OpenAI, a signalé des fuites massives de données via des comptes développeurs liés à DeepSeek fin 2024.

Si la distillation est une pratique courante, elle viole les conditions d'utilisation d'OpenAI. Cependant, la prolifération de contenus générés par l'IA sur le web rend difficile le filtrage des données d'entraînement. Nathan Lambert, chercheur à AI2, estime plausible que DeepSeek ait utilisé Gemini pour générer des données synthétiques.

Face à ces risques, les entreprises renforcent leur sécurité. OpenAI exige désormais une vérification d'identité pour accéder à ses modèles avancés, excluant ainsi la Chine. Google et Anthropic ont également commencé à "résumer" les traces de leurs modèles pour protéger leur avantage concurrentiel.

DeepSeek có thể đã sử dụng Gemini của Google để huấn luyện mô hình AI mới nhất

Tuần trước, phòng thí nghiệm DeepSeek của Trung Quốc đã ra mắt phiên bản cập nhật của mô hình AI R1 với khả năng vượt trội trong các bài kiểm tra toán học và lập trình. Dù công ty không tiết lộ nguồn dữ liệu huấn luyện, nhiều chuyên gia nghi ngờ ít nhất một phần đến từ Gemini - họ mô hình AI của Google.

Sam Paech, nhà phát triển tại Melbourne chuyên đánh giá "trí tuệ cảm xúc" của AI, đã công bố bằng chứng cho thấy mô hình mới nhất của DeepSeek được huấn luyện trên đầu ra từ Gemini. Trên trang X, ông nhận định mô hình R1-0528 của DeepSeek có xu hướng sử dụng từ ngữ tương tự Gemini 2.5 Pro của Google.

Một nhà phát triển khác ẩn danh, người tạo ra công cụ đánh giá "SpeechMap", cũng nhận thấy quá trình suy luận của DeepSeek "giống hệt cách Gemini hoạt động". Đây không phải lần đầu DeepSeek bị nghi ngờ sử dụng dữ liệu từ đối thủ: tháng 12/2023, mô hình V3 của họ thường tự nhận là ChatGPT.

Theo Bloomberg, OpenAI từng phát hiện bằng chứng DeepSeek sử dụng kỹ thuật chưng cất (distillation) - phương pháp trích xuất dữ liệu từ các mô hình lớn hơn. Microsoft, đối tác của OpenAI, cũng ghi nhận lượng lớn dữ liệu bị rò rỉ qua các tài khoản developer có liên hệ với DeepSeek cuối 2024.

Dù distillation là phương pháp phổ biến, nó vi phạm điều khoản sử dụng của OpenAI. Tuy nhiên, sự bùng nổ nội dung AI trên internet khiến việc lọc dữ liệu huấn luyện trở nên khó khăn. Chuyên gia Nathan Lambert từ viện nghiên cứu AI2 cho rằng việc DeepSeek sử dụng dữ liệu từ Gemini là hoàn toàn có thể xảy ra.

Trước tình hình này, các công ty AI đang tăng cường bảo mật. OpenAI yêu cầu xác minh danh tính để truy cập mô hình nâng cao, trong đó loại trừ Trung Quốc. Google và Anthropic cũng bắt đầu "tóm tắt" quá trình suy luận của mô hình nhằm bảo vệ lợi thế cạnh tranh.