Nourrir les machines
De quoi se nourrissent les IA génératives ? Entretien avec Joël Gombin, expert en data #266
👨🚀 Tous les mardis, Stéphane Schultz décrypte l’impact des technologies sur l’économie et la société... En savoir plus sur cette lettre : À propos
📘 Vous appréciez cette lettre gratuite et sans pub et souhaitez l’aider ? Commandez mon livre Après la Tech, le numérique face aux défis écologiques. Dédicace personnalisée 📝
🧭 De quoi allons-nous parler ?
Si vous parcourez les Paramètres de vos applications préférées, vous verrez sans doute qu’y sont apparues récemment des mentions les autorisant à utiliser vos contenus pour entraîner des IA génératives. Résignés à voir toutes nos actions sur le web épiées à des fins de paramétrage publicitaire, va-t-on se retrouver 20 ans après les débuts de Google dans la même situation avec les modèles génératifs ? Retrouverai-je certaines de mes tournures de phrases dans la dissertation d’une étudiante en 2025 ?
Malgré l’aridité du sujet - rappelons que l’intelligence artificielle est d’abord un champ de recherche - j’ai souhaité mieux comprendre comment étaient “nourris” les modèles génératifs. Non par amour de la science - je pars de trop loin - mais pour mieux appréhender les enjeux derrière les récents accords entre OpenAI et des acteurs de la presse comme Reuters, Axel Springer ou le groupe Le Monde en France. Le concepteur de LLM (large language models) pourra puiser moyennant finances dans les contenus produits par les organes de presse. Je cherche également à déterminer si oui ou non les solutions d’IA génératives pourraient faire moins d’erreurs - et donc potentiellement passer à l’échelle - à condition d’avoir accès à des données plus spécifiques, comme semblent le laisser croire les annonces de l’agence Bloomberg ou le géant du conseil Mc Kinsey par exemple. Ces “entreprises de l’information” affirment avoir créé leur propre “GPT” susceptible de trouver dans leurs immenses bases de données la réponse automatique à une question spécifique. Alors, magie ? Technoptimisme ? Essayons d’en savoir en peu plus.
Comme souvent quand je m’informe sur le sujet des données, mon regard se tourne vers Joël Gombin, co-fondateur de la startup opsci.ai et actuellement en charge du Lab Data/IA au sein La Plateforme.io. Joël n’est pas à proprement parler un nutritionniste de LLM, ce qui ne l’empêche pas de rendre clairs et pédagogiques ces sujets complexes. À table !
🎯 Cette semaine
Comment sont nourris les IA génératives ? Entretien avec Joël Gombin, VP Civic strategies chez Opsci. Les (Explications) et visuels ont été ajoutés par Stéphane.
Récemment j’ai vu passer un tweet de Pieter Levels qui se demandait en plaisantant si internet n’avait pas été inventé uniquement pour nourrir gratuitement les modèles génératifs. Ces modèles s’entraînent-ils vraiment sur l’ensemble des contenus sur le web ?
Pour leur entraînement les modèles génératifs utilisent des milliers de milliards de mots - sous forme de tokens, des bouts de mots - que l’on trouve sur internet, via des corpus comme Common Crawl. Dans ces trillions il y a beaucoup de “bruit”, des textes générés par des robots, des bouts de code invisibles par les internautes, qu’il faut filtrer pour pouvoir utiliser les contenus utiles. C’est un changement radical par rapport à la manière dont on cherchait à organiser l’information avant l’émergence récente - 2019 - des derniers modèles génératifs. Jusqu’alors on entraînait les modèles sur des corpus de données beaucoup plus structurés. Les premiers modèles de langage comme Bert par exemple n’ont été entraînés que sur Wikipedia.
Revenons peut-être un peu en arrière pour rappeler quelques moments de l’histoire de l’IA et des LLM (large langage models). Il existe en effet un monde moins connu que celui des LLM, le monde des GLAM (galeries, librairies, archives, musées) : c’est un monde d’ontologies, de nomenclatures, de graphes de connaissances et de web sémantique. Google Books à partir de 1996 a numérisé les 40 millions de livres existants. La qualité des corpus représentés par ces textes a fait grandement avancer la science de l’information. Google a également créé un outil exceptionnel pour les linguistes, Google NGram. Cet outil a rendu possible des recherches et statistiques comme jamais auparavant. Dès 2009, le mouvement linked data (ou web des données) a cherché à structurer les données du web en organisant les connaissances.
Exemple de web de données. Source : INRAE
Cette méthode a été utilisée par exemple pour aligner les langues entre elles. Est-ce qu’un article sur l’Assemblée Nationale en français sur le web est le même que celui qui parle de National Assembly en anglais ? On crée des bases de données qui relient des informations entre elles afin justement de les rendre interprétables par des machines.
Les LLM ne fonctionnent-ils pas de la même manière ? J’ai lu que des entreprises comme Bloomberg ou Mc Kinsey “nourrissaient” leur modèle de langage avec des données internes structurées comme leurs études et leurs documents de recherche.
Ce qu’il faut comprendre c’est qu’un LLM n’a pas pour objectif d’acquérir des connaissances. L’objectif est de construire un modèle de langage : une machine qui apprend à parler, à générer du langage qui ressemble à du langage humain.
(Explications) Les modèles génératifs sont entraînés à prédire le prochain mot ou groupe de mots. On leur donne un segment de texte comme “j’aime manger” et le modèle prédit d'abord "de", puis "la", et enfin "crème" et "glacée"en s’appuyant sur les statistiques de milliers de milliards de relations entre des tokens qui ont servi à l’entraîner. Une autre technique consiste à masquer des mots et leur demander de prédire les mots manquants : “J’aime [MASQUE] [MASQUE] glacée”. Le modèle doit prédire les jetons masqués - source : Wikipedia
Source : Josh Poduska
Alors bien sûr pas besoin d’être philosophe du langage pour déduire que langage et structure de la connaissance ne sont pas séparables. Dans la structure des langages humains il y a une part de connaissances qui sont ancrées. Mais une part seulement, d’où les hallucinations : les résultats fournis par les bots paraissent vraisemblables mais peuvent contenir des éléments totalement faux voire fantaisistes. Ces hallucinations sont tout à fait normales puisque le modèle ne sait produire que du langage, pas des connaissances. Pour réduire le risque d’hallucination il n’existe à l’heure actuelle que des patchs, des bouts de sparadrap. On peut fournir plus de données au modèle sur certains domaines. Par exemple des données internes d’une entreprise comme celles que tu as citées. Pour le style de langage en sortie (la manière dont va s’exprimer le modèle en réponse à une question) ce fine-tuning marche assez bien. En revanche pour l’apprentissage pur, c’est moins évident. Le nombre de paramètres d’un modèle étant fini, ce que tu lui fais “apprendre” de nouveau conduit à lui faire “oublier” ce qu’il avait appris avant. Les chercheurs appellent cela le catastrophic forgetting. Le modèle a oublié des choses, et ces choses peuvent être très importantes pour la compréhension et le sens, ce qui conduit à des résultats très mauvais.
C’est pour cela que les modèles ont cherché à diminuer ces risques en ajoutant des informations au prompt ?
Oui, c’est ce qu’on appelle le RAG ou retrieval augmented generation. On ne touche pas au modèle, on lui fournit au moment de la question ('“prompt”) des informations et du contexte qui vont être utiles pour répondre à la question de la manière attendue. C’est l’équivalent d’un examen que tu passerais en ayant pas assez révisé mais pour lequel on te fournirait au dernier moment des documents pertinents à commenter. La machine ajoute des éléments au prompt : “en tenant compte de tous ces éléments, réponds à la question”. C’est artisanal, cela relève vraiment du patch. .
(Explications) Ces prompts sont souvent masqués et sont ajoutés à l’insu de l’internaute. Ils expliquent par exemple le résultat saugrenu obtenu à une demande de génération d’images de “soldats allemands en 1943” sur Google Gemini : le bot avait ajouté au prompt des demandes de respect de la diversité, ce qui a conduit à des images de soldats hommes et femmes, avec des origines ethniques beaucoup plus variées que l’armée allemande en 1943.
Comment trouver quelles sont les informations pertinentes à ajouter ?
Cela pose pas mal de difficultés. Il faut être capable d’identifier le ou les document·s pertinents par rapport à la question de l’utilisateur. C’est une vieille problématique de science de l’information qui ne concerne pas à ce stade les LLM mais ce qu’on appelle les embeddings (ou plongement sémantique). C’est l’idée que tu vas indexer des mots, des images, des sons, ou des produits - par exemple le catalogue de tous les produits vendus sur Amazon - en les situant dans un espace vectoriel de grande dimension. Chaque bout de mot ou d’image a une position dans cet espace vectoriel, et plus ils sont proches plus ils ont une signification semblable. Par exemple on va pouvoir relier “Roi” et “Reine” en établissant des liens qui montrent que “Roi est à Reine ce que Homme est à Femme”, “Paris est à France ce que Berlin est à Allemagne”. Ce type de technologie existait avant les LLM : ce sont elles qui ont permis d’améliorer les moteurs de recherche et de créer des moteurs de recommandation. Netflix ou Amazon par exemple ont des moteurs de recommandation “ceux qui aiment ceci ont également aimé cela” qui sont basés sur des descriptions de leurs produits. Tu crées des liens entre tes fiches produits (exemple : vis et boulons) puis tu repasses tes descriptions de produits dans ton modèle. Cela produit un super moteur de recherche sémantique qui te proposera des boulons quand tu recherches des vis sans avoir besoin de passer par des logiques de rayonnage. Pinterest aussi utilise des embeddings pour établir la similarité entre les images. C’est une technologie beaucoup plus low cost que les LLM, ça ne parle pas tout seul mais cela permet de faire déjà beaucoup de choses.
Qui sait, les spécialistes de ces domaines délaissés depuis l’avènement des LLM seront peut-être prochainement rappelés pour créer des solutions qui mixent les deux approches. L’avenir sera clairement dans le mélange des deux méthodes : du “bulk” (vrac) pour entraîner les modèles de langage et de l’embedding pour les “documenter” au moment du prompt.
Pour conclure, que penses-tu des accords récents entre les organes de presse et les géants des LLM ?
On ne sait pas grand chose sur leur contenu. Mon intuition est qu’il y a au moins deux utilités dans ces accords. La première : éviter un procès parce que cela crée de l’incertitude. Ce n’est pas une question d’argent pour les producteurs de LLM, plutôt le besoin de s’acheter la sympathie de la presse pour pas cher. En revanche l’accès au corpus de données publiées par la presse ne semble pas être un enjeu aujourd’hui pour les LLM. Parmi les trillions de tokens utilisés pour leur entraînement, le Groupe Le Monde par exemple doit représenter une part infime. Ce sont des tokens de bonne qualité, cependant l’enjeu semble plutôt d’être capable de mixer dans les résultats des éléments de langage produits par le modèle en réponse à la question avec des liens pertinents d’articles sur le web et dans les versions numériques de journaux. C’est à peu près ce que propose Perplexity, qui est ni plus ni moins que du RAG à l’échelle d’internet. Plutôt de la recherche augmentée que de la génération améliorée.
Et un dernier point, je doute fort que le “chatbot” soit l’interface qui perdure au-delà d’un premier engouement depuis la sortie de ChatGPT. Le chatbot est une interface vieillotte depuis Elisa en 1956. Son usage est je trouve très pauvre. S’il paraît familier aux utilisateurs, il est peu adapté et présente carrément des risques pour certaines applications où ses réponses “hallucinantes” présentent un vrai danger.
Merci Joël pour tes lumières !
(Entretien rédigé et relu par des humains)
🧐 Et aussi
Des ressources utiles en lien avec le sujet traité cette semaine.
Soulevons le capot des modèles génératifs avec l’un des plus brillants chercheur-entrepreneur français - Finetuner des Large Language Models - Pierre-Carl Langlais - Data Driven 101
Les “principes” de Google pour ses modèles génératifs - Google AI Principles
Comment Uber a construit son moteur de recommandation de restaurants - How Uber Eats Built a Recommendation System Using Two Tower Embeddings (YouTube)
L’évolution des techniques de recommandation chez Amazon - The history of Amazon's recommendation algorithm - Amazon Science
🤩 On a aimé
Nos trouvailles de la semaine, en vrac et sans détour
Médias 2050 - Le monde de l’information en 2050 : quels scénarios ? (INA)
Seriez-vous prêt·e à utiliser un audio guide pour passer le temps dans le TGV ? Audio guide TGV.
J’aurais adoré l’avoir pour illustrer mon livre : une cartographie des technologies depuis l’an 1500. Calculating Empires
Enfin un chatbot intéressant pour échanger avec des philosophes disparus (Platon, Socrate, Hobbes). Génial. Philo GPT
💬 La phrase
“I don’t know whether machine translation will eventually get good enough to allow us to browse people’s websites in different languages so you can see how they live in different countries”. Tim Berners-Lee, inventeur du World Wide Web.
Traduction : “je ne sais pas si la traduction automatique deviendra un jour assez bonne pour permettre de naviguer sur les sites de personnes dans des langages différents et ainsi voir comment ils vivent dans différents pays”.
C’est terminé pour aujourd’hui !
À la semaine prochaine, n’hésitez pas à réagir.
Si vous avez apprécié cette lettre, laissez-nous un 💙 pour nous encourager. Si vous souhaitez la soutenir, commandez mon livre Après la Tech, le numérique face aux défis écologiques
Stéphane
Je suis Stéphane Schultz, de 15marches. Le jour je suis consultant, je prends des trains à travers les plaines. La nuit je lis et j’écris cette lettre.
Intéressant !
Enchanté que les GLAM soient citées dans 15 marches.
Pour l'infographie du LOD - je pense que la source est plutôt : https://lod-cloud.net/
Pour la citation de Tim Berners-Lee - ce serait intéressant d'en connaitre la date.
Pour l'Audio guide TGV - en 2013, l'informaticienne Sylvie Tissot (Anabole) avait lancé l'application "Vue du RER C" à partir du livre du même nom d'Olivier Boudot. Un projet de "livres+applications" qui devait progressivement s'étoffer au niveau des contenus (pistes audios, vidéos....) et des itinéraires. Olivier Boudot avait publié auparavant, en 2010, "De Paris à Lyon, vu du train ; paysages, rencontres, histoires". Faute de financement (et peut-être d'autres raisons ?), la collection "Vu du train" et les projets numériques associés se sont arrêtés. (Note: j'ai travaillé sur la partie "sociale" de "Vue du RER C")