Le chat du larbin
Comment vous servez-vous de l’IA générative ? Comment l’IA générative se sert-elle de vous ? #256
👨🚀 Tous les mardis, Stéphane Schultz décrypte l’impact des technologies sur l’économie et la société... En savoir plus sur cette lettre : À propos
Vous êtes 8 885 abonnés à recevoir cette lettre. Bienvenue aux nouvelles et nouveaux et merci aux autres pour leur fidélité.
Vous avez découvert cette lettre par un autre canal ? Abonnez-vous pour la recevoir directement dans votre boîte :
🧭 De quoi allons-nous parler
À quoi servent les modèles génératifs ? À quoi pouvez-vous leur servir ?
À l’heure où j’écris ces lignes (avril 2024) et après pas mal de tests en utilisant les versions payantes les plus élaborées, mon bilan d’usage des modèles génératifs est mitigé. Ok c’est sympa, mais qu’est-ce que je pourrais en faire concrètement dans mon travail ? Je ne suis peut-être pas le seul à me poser cette question. La page d’accueil de ChatGPT mentionne des idées de tâches - “recommander un film” ou “proposer une recette de cuisine” - comme si les utilisateurs n’en avaient aucune avant de se connecter. Est-ce que Google vous propose des idées de recherche sur le web ? ChatGPT met à votre disposition l’équivalent d’une équipe de “petites mains” plutôt dégourdies et parfois étourdies. C’est bluffant mais au fait : avez-vous déjà eu des stagiaires qui faisaient uniquement des recherches ou de la correction de textes ? Ne sont-ils pas en train de remplacer le stagiaire que vous n’avez jamais eu ? Et dont vous n’aviez peut-être pas besoin.
Comme souvent en matière d’innovation, la première itération n’est sans doute pas celle qui s’imposera. Nous avons beaucoup plus de chances d’avoir “un peu d’IA” dans chaque action que nous effectuerons en ligne que de nous convertir au “tout chatbot”. De plus en plus de startups seront également construites nativement autour des modèles génératifs, comme Uber ou Snap ont été construites nativement autour du mobile et de la géolocalisation. Chaque entreprise aura probablement ses propres GPTs pour exécuter certaines tâches en interne ou en externe, entraînés sur leurs propres données. La question de la collecte des données “ouvertes” devient dès lors centrale pour tous les grands acteurs afin d’éduquer leurs modèles. Les actions que nous allons effectuer en ligne et les contenus que nous y diffuserons seront l’objet d’âpres convoitises. Nous serons de plus en plus sollicités pour commenter ou corriger des articles rédigés par des IA génératives. Décryptage.
Note : “larbin” n’est pas un terme que j’utilise souvent mais le jeu de mots était trop tentant
Image générée par ChatGPT-4
🎯 Cette semaine
À chaque lettre un nouveau sujet décrypté : À quoi servent les modèles génératifs ? Comment se servent-ils de vous ?
Sur un milliard de “travailleur de la connaissance”, 10% utiliseraient ChatGPT régulièrement. Une enquête de Filtered Technologies publiée dans Harvard Business Review a classé les principaux cas d’usage professionnels et domestiques dans l’ordre de fréquence :
Assistance technique et dépannage (23%)
Création et édition de contenu (22%)
Soutien personnel et professionnel (17%)
Apprentissage et éducation (15%)
Créativité et loisirs (13%)
Recherche, analyse et prise de décision (10%).
Dans le milieu professionnel les actions les plus courantes sont : générer des idées, faire des recherches spécifiques, corriger du texte, faire des brouillons d’emails ou d’explications simples. Certains usages s’apparentent à des services à plus haute valeur ajoutée, comme la révision de code informatique ou la correction de documents légaux. Des avis médicaux sont recherchés également 😱. La limite à un usage professionnel plus approfondi est le manque de fiabilité de ces solutions. Les réponses ne proviennent pas de bases de données structurées : elles sont reconstituées d’après la probabilité que des “morceaux de mots” (tokens) aillent bien ensemble. D’où une forte vraisemblance en apparence mais de vrais risques d’“hallucinations”. La ville de New York en a fait la douloureuse expérience avec son chatbot d’information juridique qui proposait des règles locales imaginaires. Idem pour Air Canada, condamnée en justice pour avoir refusé d’octroyer à un voyageur le bénéfice d’une promotion inventée par son chatbot de relation-client. “La compagnie est responsable des tâches qu’elle a délégué à la solution numérique”. Cette décision de justice a dû circuler dans les comités de direction…
Cela ne remet pas en cause le potentiel énorme de ces modèles. Dans le cycle d’adoption des nouvelles technologies, il est courant de commencer par les utiliser pour faire ce que l’on faisait avant, sans se demander en quoi elles pourraient changer profondément nos manières de faire. Les logiciels les plus utilisés aujourd’hui ont adopté très rapidement la GenAI pour proposer des fonctionnalités additionnelles à leur solution : améliorer un texte, compléter une image ou vérifier du code. On nous vend déjà du Spatial AI et du Physical AI : la capacité que votre robot aspirateur (au hasard) aura de prendre des décisions en fonction de son “analyse” de l’environnement. Soit. Ce qui manque aujourd’hui aux LLM, ce sont des applications concrètes, utiles, qui résolvent des cas d’usage précis. Compte tenu de l’architecture ouverte des grands modèles génératifs, il ne fait aucun doute que des milliers de startups sont en train d’y travailler.
Les transformations prennent du temps, et nous avons tendance à surestimer les changements à court terme et à sous-estimer ce qui peut changer en une décennie. Louis-David Benyayer ne disait pas autre chose dans un entretien qu’il nous a accordé récemment :
“la diffusion des technologies dans les entreprises qui ne sont pas nativement numériques est toujours plus longue que ce qu’on imagine au départ : que ce soit pour l’e-commerce, la mobilité, et maintenant l’IA générative,... à chaque vague on constate que cela prend du temps. Mon intuition est que la diffusion des outils sera plus longue que leur maîtrise technologique, parce que la diffusion n’est pas une question de performance technique mais d’adoption, de réglementation, d’écosystème d’affaires (…). Restera également à lever les freins au déploiement dans les entreprises, notamment :
· le passage à l’échelle : servir des millions d’utilisateurs est différent de faire des démonstrateurs sur des échantillons réduits,
· disposer de données de qualité, en masse et de façon véloce,
· l’infrastructure technologique : nécessite des partenariats avec des offreurs de solutions,
· la transformation des métiers, des processus et des recrutements,
· la transformation des modalités d’interaction avec les clients”.
Il n’y aura sans doute pas de Grand Soir mais une évolution progressive de nos manières de travailler et d’interagir. “Pour presque tous les cas d’usage dans la liste il y a un humain quelque part dans la boucle pour vérifier, approuver et utiliser les résultats générés” affirmait l’auteur de l’article sur Harvard Business Review.
Mais si l’IA est notre larbin, qui est le larbin de l’IA ? À l’aide de quelles données reproduisent-elles tellement bien notre propre langage que nous nous y laissons prendre ? “Si tu ne paies pas, c’est que tu es le produit” : cet adage nous avait habitué à accepter - souvent bien malgré nous - la collecte de nos données personnelles pour améliorer les contenus proposés (en réalité mieux cibler les publicités). Avec les modèles génératifs, la vendange passe à une échelle supérieure. Il ne s’agit plus de personnaliser vos contenus mais d’éduquer des modèles pour produire textes, images et sons. La première étape a consisté au moissonnage de milliards de pages web pour construire et entraîner les modèles.
Trad. : “peut-être est-ce une réflexion évidente mais j’ai réalisé la nuit dernière : Internet était juste un moyen de déplacer toute la connaissance humaine dans un format structuré facilement accessible par des ordinateurs pour que l’AI puisse se développer et s’entraîner. Avant internet la connaissance était trop dispersée dans des livres, télévision, histoires personnelles,. Internet était juste une sauvegarde pour l’intelligence artificielle”
Des travailleurs du clic payés 2$ de l’heure ont également contribué à l’alignement des modèles. Mais cela n’a pas suffit. Pour proposer des réponses qui ressemblent à celles fournies par des humains et non à de froides machines, il fallait aller plus loin. Dans sa newsletter Automated Society, le journaliste et auteur Nicolas Kayser-Bril analyse les différentes manières d’”extraire notre humanité” en ligne pour entraîner les IA.
“Nous entraînons le Machine Learning depuis des décennies. Nous avons aidé Google à numériser des livres en résolvant des captchas à la fin des années 2000, et nous aidons les filtres à spam à catégoriser des emails chaque fois que nous cliquons sur “déplacer dans indésirables”.
Nous devons prouver en ligne que “nous ne sommes pas un robot” en cliquant sur des visuels de feux de circulation (éduquer Google Street View) ou en déchiffrant des mots presque illisibles (aider Google à numériser 40 millions de livres). Pour les publications en ligne, c’est plus simple. Depuis 18 mois Google, Meta et Microsoft ont ajouté “entraîner les modèles de Machine Learning” à la liste de ce qu’ils pouvaient faire avec vos publications, vos commentaires et vos réactions. Reddit a cédé à Google l’usage des données de ses contributeurs pour une somme annuelle représentant 10% de son chiffre d’affaires. Zoom l’a également tenté, mais a du renoncer devant la bronca de ses clients. D’autres organisations ont eu moins de scrupule. L’Université du Michigan a cherché à vendre les travaux de recherche et les enregistrements audio de ses étudiants.
Une autre question intéressante soulevée par Nicolas Kayser-Bril est de savoir si le “moissonnage” de nos contributions en ligne n’est que le fruit d’une action passive de la part de ceux qui les revendent ou s’ils agissent au contraire pour nous forcer à les produire à dessein. “Est-ce qu’un réseau social change les images et vidéos que nous voyons dans notre feed selon les sujets sur lesquels il souhaite recueillir nos réactions ?”. Toutes ces photos qu’on a partagé sur le web en participant à des challenges “comment étiez-vous il y a 10 ans ?” : ont-elles servi à calibrer des fonctionnalités sur certains logiciels ? Google également nous encourage sur son nouveau chatbot Gemini à discuter de sujets sensibles comme préparer un entretien d’embauche. Extraire notre humanité, toujours.
Peut-on échapper à ce qui s’apparente à une prédation ? L’article 5 de GDPR (General Data Protection Regulation de 2018) exige une information explicite sur l’usage des données personnelles. L’AI Act renforcera encore la protection des utilisateurs. Mais l’auteur constate que lui-même a des difficultés à suivre la procédure en ligne pour refuser l’exploitation de ses données par des IA.
“Si tu ne paies pas pour avoir un larbin, c’est peut-être que ce sera toi en réalité le larbin de l’IA”.
À suivre dans une prochaine édition !
N’hésitez pas à me faire part de vos propres usages des modèles génératifs. Même les plus fous !
🧐 Et aussi
Des ressources utiles en lien avec le sujet traité cette semaine.
La réponse à la question “où peut-on trouver les données de tous les sites web en ligne (250 milliards de pages quand même) ?” est ici - Commoncrawl
L’enquête de Filtered sur les usages de l’AI - Ai Now report : the top 100 use-cases for generative AI
L’article de Harvard Business Review - How People Are Really Using GenAI
Les mésaventures du chatbot de la Ville de New York - NYC mayor defends its chatbot pilot, as the AI tool continues to dish out illegal advice
Et de celui d’Air Canada - Air Canada ordered to pay customer who was misled by airline’s chatbot
Adobe, leader chez les entreprises créatives, achète des vidéos pour créer son propre modèle génératif - Adobe is buying video clips for 3$ per minute to build AI model
Si vous découvrez ChatGPT aujourd’hui - Que faut-il savoir sur ChatGPT ? - 15marches
Le Chat du Rabbin est une série de 18 albums de bandes dessinées par Joann Sfar - Le Chat du Rabbin
🤩 On a aimé
Nos trouvailles de la semaine, en vrac et sans détour
Un podcast sur la mise en oeuvre de l’intelligence artificielle dans l’administration L'intelligence artificielle, à la conquête de l'administration publique ?
Comment calculer l’impact carbone de l’IA (toujours épaté de la précision à laquelle descendent ces analyses vs le poids relatif de ces émissions) - Comment calculer (vraiment) l'impact carbone de ChatGPT ? Benoit Raphael
À Los Angeles, les bus seront équipés de caméras pour verbaliser les véhicules stationnés dans les couloirs de bus - AI-powered cameras installed on Metro buses to ticket illegally parked cars
Quels sont les objets les plus souvent oubliés (et trouvés) dans un Uber ? Les plus fous ? Uber Lost and Found Index
Des appartements sans salle de bains, des coworking ou des salles de sport avec des bains publics. Bienvenue au Japon. No-bath apartments win over Japan's minimalist youth
💬 La phrase
“The world of the made will soon be like the world of the born : autonomous, adaptable, and creative but, consequently, out of our control”. Kevin Kelly, Out of Control (1998)
C’est terminé pour aujourd’hui ! Si vous avez apprécié cette lettre, laissez-nous un 💙 pour nous encourager.
Stéphane
Je suis Stéphane Schultz, de 15marches. Le jour je suis consultant, je prends des trains à travers les plaines. La nuit je lis et j’écris cette lettre.
Encore une news passionnante ! Article qui tombe à point nommé alors que LinkedIn me demande chaque semaine de donner mon avis "d'expert" sur ses articles générés par IA...
C'est donc ça les feux rouges 😅 tout s'éclaire !
Hebdomadairement la lettre de “15 marches” es le métronome qui cadence et nourri mes réflexions contemporaines Merci