Dans une interview récente, Steve Huffman, le PDG de Reddit, a lancé un appel à Microsoft et à d’autres entreprises. Il leur demande de penser à payer s’ils souhaitent continuer à extraire les données du célèbre site communautaire. Déclaration qui intervient après que Reddit a conclu des accords avec Google et OpenAI. Voilà une autre preuve des tensions croissantes entre les plateformes de contenu et les géants de la tech qui cherchent à alimenter leurs modèles d’IA avec des données publiques.
Huffman a surtout pointé du doigt Microsoft, Anthropic et Perplexity et les accuse d’utiliser les données de Reddit sans permission et de rendre difficile leur blocage…
Une escalade dans la lutte contre les crawlers
Il faut savoir que Reddit a intensifié sa lutte contre les crawlers ces derniers mois. Début juillet, le site a mis à jour son fichier robots.txt pour bloquer les crawlers avec lesquels il n’a pas d’accord. Les internautes ont vite remarqué que les résultats de Reddit n’étaient visibles que dans les résultats de Google, qui paie pour l’utilisation des données, et non dans d’autres moteurs de recherche comme Bing.
À LIRE AUSSI : Combien d’APL pour un loyer de 600 euros ?
Microsoft et d’autres accusés d’utiliser les données de Reddit sans accord
Huffman affirme que Microsoft a utilisé les données de Reddit pour entraîner son IA et résumer son contenu dans les résultats de Bing « sans nous le dire« . Il a également souligné que les données de Reddit ont été vendues via l’API de Bing à d’autres moteurs de recherche.
Le PDG de Reddit a fait référence à un commentaire récent de Mustafa Suleyman, PDG de Microsoft AI. Celui qui disait que les données publiques sur Internet sont des « freewares« . « Microsoft, Anthropic et Perplexity agissent comme si tout le contenu sur Internet était gratuit pour eux« , a déclaré Huffman. « C’est leur véritable position. »
Un nouveau modèle d’échange de valeur
Face à la disparition récente des résultats de Reddit sur Bing, Jordi Ribas, responsable de la recherche chez Microsoft, a déclaré sur X que « Reddit a bloqué Bing pour le crawling de leur site, favorisant un autre moteur de recherche et impactant la concurrence de Bing et des moteurs alimentés par Bing. »
Huffman a cité l’annonce récente d’OpenAI concernant SearchGPT, qui pourra afficher les résultats de Reddit grâce à un accord conclu entre les deux entreprises plus tôt cette année, comme le modèle qu’il souhaite reproduire. Aucun des accords de licence de contenu conclus par Reddit à ce jour n’inclut de cas d’utilisation exclusive de ses données, selon le porte-parole Tim Rathschmidt.
Un changement dans l’échange de valeur traditionnel
En appelant à des accords de licence, Reddit rejoint les éditeurs de médias traditionnels (y compris Vox Media, la société mère de The Verge) dans leur quête de rémunération pour laisser leur contenu alimenter l’IA générative. « Je pense que l’échange de valeur traditionnel des moteurs de recherche a changé« , a déclaré Huffman. « La recherche, la synthèse et l’entraînement fusionnent, et l’échange de valeur du crawling contre du trafic en retour devient confus. »
À LIRE AUSSI : Spotify fait marche arrière et les paroles sont de nouveau accessibles gratuitement !
Des réactions mitigées des entreprises visées
Après la publication de cet article, la porte-parole d’Anthropic, Jennifer Martinez, a envoyé la déclaration suivante : « Reddit est sur notre liste de blocage pour le crawling web depuis la mi-mai et nous n’avons ajouté aucune URL de Reddit à notre crawler depuis. Nous respectons robots.txt, le signal accepté par l’industrie pour bloquer le crawling web. » Microsoft a refusé de commenter cette histoire ET Perplexity n’a répondu à aucune demande de commentaire du media THE VERGE.
Au final, la position de Reddit illustre tout simplement les difficultés auxquelles sont confrontées les plateformes de contenu à l’ère de l’IA générative. Alors que les géants de la tech cherchent à s’appuyer sur des données publiques pour alimenter leurs modèles, les créateurs de contenu réclament une juste rémunération pour l’utilisation de leurs données. Un nouveau modèle d’échange de valeur semble nécessaire pour trouver un équilibre entre innovation technologique et respect de la propriété intellectuelle.