Que se passe-t-il dans le cœur des IA ? Comme souvent dans l’histoire des techniques, les inventeurs des intelligences artificielles génératives − ChatGPT, Claude ou Gemini − n’ont pas une compréhension fine du fonctionnement de leurs créations. Le sujet passionne le mathématicien Stéphane Mallat, 63 ans. Lauréat de la prestigieuse médaille d’or du CNRS en 2025 et professeur en sciences des données au Collège de France, le scientifique se plonge dans les méandres des réseaux de neurones. On sait que la capacité d’apprentissage des IA repose sur ces algorithmes composés d’opérations mathématiques simples, agencées entre elles de manière à mimer, grossièrement, l’architecture du cortex humain. Mais comment ces programmes apprennent-ils ? Comment encodent-ils l’information ? Des chercheurs en mathématiques ouvrent peu à peu le couvercle de la boîte noire des IA avec l’espoir de la mettre un jour en pleine lumière. Selon Stéphane Mallat, dont certains travaux entrepris dans les années 80 s’avèrent précieux face à ce défi intellectuel, la compréhension du monde par les IA semble assez proche de celle des humains. Ces intelligences ne sont peut-être pas si artificielles qu’on le croit, comme il l’expliquait dans une de ses leçons au Collège de France à l’automne.
Dans votre travail de mathématicien, est-ce que vous utilisez l’IA ?
Il y a encore un an, l’IA était inutilisable en mathématiques à haut niveau. Aujourd’hui, je l’utilise pour comprendre de nouveaux concepts. Cela permet d’apprendre dans le dialogue, de formuler un tas de questions idiotes qu’on n’oserait pas poser à des collègues.
Et puis, j’ai commencé à m’en servir pour vraiment résoudre des problèmes. Récemment, elle en a débloqué un sur lequel je planchais, en ouvrant des voies qu’on n’avait pas vues, en faisant des liens avec des articles qu’on ne connaissait pas, et, à un moment, elle a fait un calcul en deux minutes qui m’aurait pris un jour ou deux.
En juillet, plusieurs IA ont obtenu le niveau médaille d’or aux Olympiades internationales de mathématiques. Est-ce que l’IA pourrait remplacer les mathématiciens ?
Personne ne peut savoir aujourd’hui ce que va devenir le métier de mathématicien avec les progrès de l’IA. D’ici dix ans, si je devais jouer à la roulette, je dirais qu’il y a des chances que ces systèmes deviennent très performants en mathématiques. Certains jeunes, aujourd’hui, hésitent à se lancer dans la discipline, avec le risque de se retrouver dans la situation des programmeurs informatiques, dont une partie des tâches est déjà automatisée.
Ils pourront toujours travailler pour les entreprises d’IA, qui leur offrent aujourd’hui des conditions enviables…
Ces entreprises leur proposent des salaires dix fois plus élevés que dans la recherche publique. Il y a quelques années, quand Facebook, Google, etc., sont arrivés à Paris, elles ont récupéré tous les jeunes formés entre 25 et 40 ans, il ne restait presque plus personne. Le vrai problème, c’est qu’elles paient peu d’impôts en France. Tout cet argent s’évapore, alors qu’il pourrait notamment permettre de financer des salaires de chercheurs en France.
Ce développement fulgurant des IA, alors même que leur fonctionnement reste encore mal compris, est-il inquiétant ?
Il est habituel et normal que la recherche soit en retard sur le progrès technique. Les Romains ont construit le pont du Gard près de 2 000 ans avant que Newton établisse les bases scientifiques pour comprendre pourquoi il tient debout. Et il a ensuite fallu attendre encore presque 200 ans pour transformer ces connaissances en techniques plus avancées qui ont permis de construire des ponts suspendus.
Dans le cas de l’IA, nous avons peut-être dix ans de retard, mais ce n’est rien par rapport à ça ! A mon sens, le développement de l’IA n’est pas inquiétant au niveau scientifique. C’est la capacité d’adaptation de la société qui est en question, dans le domaine de l’éducation, du travail, de l’environnement…
A quel point l’IA est-elle encore une «boîte noire» aujourd’hui ?
Il faut nuancer l’expression. On comprend parfaitement les algorithmes à la base des IA. Les ingénieurs qui les développent savent comment ils fonctionnent, étape par étape. Ce qui a été une grande surprise, c’est leur performance. Prenons la météo. Aujourd’hui, avec l’IA, on devient capable de faire des prévisions plus précises que les modèles numériques basés sur les lois de la physique. Cela signifie donc que le système a pu modéliser toute la physique sous-jacente, et de façon plus précise, que nous aurions pu le faire nous-mêmes. Comment ce système l’a-t-il apprise alors qu’on ne lui a pas donné les grandes théories, mais seulement les données météorologiques passées ? On commence à avoir des éléments de réponse sur ces questions.
Lesquels ? Est-ce que vous comprenez aujourd’hui comment les IA voient le monde ?
L’IA se confronte au même monde que nous. Dès lors, il n’est pas surprenant de voir une convergence entre la physique que l’on connaît et les solutions auxquelles elle aboutit. C’est ce que je trouve fascinant. On ne retrace pas encore précisément le fonctionnement de ces réseaux de neurones, mais on sait qu’ils font appel à des outils mathématiques proches de ceux utilisés en physique. Il y a un invariant dans le monde, auquel l’IA ne déroge pas : l’organisation hiérarchique de l’information. Le langage, par exemple, se décompose en lettres, qui forment des mots, puis des phrases, des paragraphes, et enfin un texte. En physique, vous avez des particules, des atomes, des molécules, etc. Suivant l’échelle que l’on étudie, on appelle cela de la mécanique quantique, de la géophysique ou de la cosmologie. La question est donc de comprendre comment l’IA organise l’information à ces différentes échelles. Ces interactions hiérarchiques ont beaucoup été étudiées en physique, et permettent, par exemple d’expliquer pourquoi l’eau se transforme brutalement en gaz à 100 °C. Les réseaux de neurones semblent capables d’apprendre ces interactions hiérarchiques dans des contextes très généraux, y compris pour le langage. Mais on comprend mal les mathématiques sous-jacentes.
Ces interactions hiérarchiques sont encodées par des objets mathématiques sur lesquels vous avez travaillé dans les années 80-90, les ondelettes, et qui sont utilisées par les IA. Pouvez-vous nous expliquer de quoi il s’agit ?
J’ai longtemps travaillé sur les équations derrière les algorithmes de compression d’images. Pour représenter une image avec le moins de données possible, il faut se concentrer sur les contours des formes. Les objets mathématiques qui permettent d’encoder ces contours le plus simplement possible sont appelés ondelettes. Il s’agit de motifs brefs (il prend un feutre et dessine trois vagues dont celle du milieu est plus haute que les deux autres), qui permettent d’encoder de façon économe les variations dans les images, à chaque échelle. Et quand rien ne change dans l’image, je ne mets pas d’information. Cette méthode de compression a permis de développer le format JPEG dans les années 2000.
On sait maintenant que les IA codent une partie de l’information qu’elles reçoivent sous forme d’ondelettes, pour saisir les différents niveaux d’organisation de l’information. Et ce ne sont pas les seules. Le cortex visuel ou auditif interprète aussi les informations qu’il reçoit via des ondelettes. Même les moustaches des rats codent l’information sous cette forme ! C’est une façon générique et efficace de représenter l’information.
Il y a donc un parallèle entre l’apprentissage du cerveau humain et de l’IA ?
Tout à fait, il semblerait qu’il y ait de nombreuses similarités, même si l’apprentissage des humains reste beaucoup plus performant. Les deux s’attaquent aux mêmes problèmes, et il n’y a probablement pas beaucoup de façons de les résoudre : ce n’est donc pas étonnant qu’on arrive à des solutions plus ou moins équivalentes. Il s’agit de trouver une manière de représenter et traiter l’information de problèmes très complexes.
Les IA apprenant à partir de données, peut-on dire qu’elles pratiquent une forme d’empirisme ?
Selon moi, les IA sont kantiennes, comme nous. Je m’explique. Si l’on schématise la théorie de la connaissance, pendant longtemps il y avait d’un côté les rationalistes, qui pensaient que la raison était la seule manière d’accéder à la vérité et, à l’opposé, les empiristes qui rejetaient la vérité absolue et pour qui seule l’expérience physique comptait. Puis Kant a dépassé cette opposition en observant que nos expériences étaient filtrées par notre esprit qui impose des formes a priori à nos expériences.
Chez les IA, ce filtre préconçu, c’est l’architecture du réseau de neurones, qui permet de calculer des probabilités conditionnées à l’information fournie. ChatGPT, par exemple, vous donne le mot le plus probable qui vient après un autre, en fonction du contexte. Les ingénieurs n’utilisent pas les mêmes réseaux de neurones en fonction des données à analyser. Plus vous avez d’a priori, de règles à suivre, moins vous avez besoin de données, mais plus vous risquez de vous tromper. Et si vous avez beaucoup de données, comme pour la météorologie, le système peut retrouver certaines lois de la physique utiles à la prévision sans que vous ne les lui donniez.
Concernant l’avenir de l’IA, pensez-vous comme Yann Le Cun, l’ancien directeur du laboratoire d’IA de Facebook qui vient de lancer en France sa start-up AMI, que les modèles de langage sont limités et qu’il faut privilégier une autre approche ?
Alors que les modèles d’IA qui ont le plus d’impacts sont pour le moment surtout des modèles de langage, Yann Le Cun aimerait développer des «world models», capables de se représenter le monde réel : par exemple, pouvoir prévoir qu’un objet tombera s’il arrive au bord d’une table. Dans la recherche, proposer une approche différente, comme le fait Yann, c’est toujours une bonne chose. Surtout quand il s’agit d’un super chercheur, qui recrute une super équipe d’ingénieurs, et qui lève quasiment 1 milliard d’euros.
Mais l’approche qu’il propose est très complexe, et reste encore à éprouver. Pour le moment, une IA ne peut pas avoir l’expérience du monde comme nous l’avons ; il faudrait que la robotique fasse des progrès pour apporter toutes les informations nécessaires à ces «world models». Pendant ce temps, les progrès des modèles de langage sont fulgurants et ne semblent pas atteindre de plafond.
Aucun commentaire:
Enregistrer un commentaire
Remarque : Seul un membre de ce blog est autorisé à enregistrer un commentaire.