David Millette est un créateur de contenu sur YouTube basé au Massachusetts qui cherche à intenter un recours collectif contre OpenAI. Il accuse l’entreprise d’avoir entraîné ses modèles d’IA générative sur des millions de transcriptions de vidéos YouTube sans en informer ni rémunérer les propriétaires. Cette plainte a été déposée vendredi devant le tribunal de district des États-Unis pour le district nord de la Californie.
Et le moins que l’on puisse dire, c’est qu’elle donne effectivement lieu à se poser des questions cruciales concernant l’utilisation des données des créateurs par les entreprises d’IA ainsi que sur le respect du droit d’auteur dans ce domaine en pleine expansion.
Une collecte de données présumée illégale et lucrative
Selon la plainte, OpenAI aurait secrètement transcrit les vidéos de Millette et d’autres créateurs pour entraîner les modèles qui alimentent son chatbot ChatGPT et d’autres outils et produits d’IA générative. En collectant ces données, OpenAI aurait « profité de manière significative » du travail des créateurs, tout en violant le droit d’auteur et les conditions d’utilisation de YouTube. On rappelle que celles-ci interdisent l’utilisation des vidéos pour des applications indépendantes de son service.
En plus, les avocats de Millette affirment que plus les produits d’IA d’OpenAI deviennent sophistiqués grâce à l’utilisation d’ensembles de données d’entraînement, plus ils deviennent précieux pour les utilisateurs potentiels et actuels. Ces derniers souscrivent à des abonnements pour accéder à ces produits. Mais le vrai souci, c’est qu’une grande partie du matériel contenu dans ces ensembles de données proviendrait d’œuvres copiées par OpenAI sans consentement, sans crédit ni compensation.
À LIRE AUSSI : OpenAI fait finalement face à un dilemme concernant le lancement son outil de détection des textes IA et c’est normal !
Un procès réclamé avec plus de 5 millions de dollars de dommages et intérêts
Représenté par le cabinet d’avocats Bursor & Fisher, Millette demande un procès devant jury et plus de 5 millions de dollars de dommages et intérêts pour tous les utilisateurs et créateurs de YouTube dont les données auraient pu être récupérées par OpenAI pour l’entraînement de ses modèles.
Voilà donc une nouvelle plainte qui met en lumière un problème croissant pour les entreprises d’IA générative : la difficulté d’accéder à suffisamment de données d’entraînement de qualité tout en respectant les droits des créateurs. Selon des études récentes, de plus en plus de sites web et de sources de données de haute qualité bloquent l’accès aux robots d’indexation des entreprises comme OpenAI, ce qui pourrait conduire à une pénurie de données d’entraînement d’ici quelques années.
Les transcriptions de vidéos, une source de données très importante mais clairement controversée
Dans ce contexte, les transcriptions de vidéos sont devenues un ingrédient clé pour l’entraînement des modèles d’IA. Il faut savoir qu’en avril dernier, le New York Times révélait qu’OpenAI avait créé son premier modèle de reconnaissance vocale, Whisper, dans le but de transcrire l’audio des vidéos pour collecter des données d’entraînement supplémentaires..Une équipe d’OpenAI, incluant le président de l’entreprise Greg Brockman, aurait transcrit plus d’un million d’heures de vidéos YouTube en utilisant Whisper.
Un mois d’août difficile pour OpenAI !
Cette plainte collective s’ajoute à d’autres déboires judiciaires pour OpenAI en ce début de mois d’août. Lundi, Elon Musk, PDG de Tesla et de X, a déposé une nouvelle plainte contre l’entreprise et son PDG Sam Altman. Le milliardaire excentrique les accuse d’avoir abandonné leur mission initiale à but non lucratif en réservant certaines de leurs technologies les plus sophistiquées aux clients commerciaux.