Benchmark : génie ou supercherie ?

Qu’est-ce qu’un benchmark d’IA ?

Un benchmark en intelligence artificielle, c’est tout simplement un examen standardisé pour nos modèles d’IA. Imaginez un grand concours où chaque IA doit résoudre la même série d’épreuves dans les mêmes conditions – c’est exactement le rôle des benchmarks fr.linkedin.com. Ils fournissent un terrain de jeu équitable pour comparer différentes approches et mesurer les progrès. En pratique, un benchmark se présente souvent comme un ensemble de données et de questions avec un score objectif à la clé. Par exemple, ImageNet est un fameux benchmark en vision qui contient des millions d’images classées par catégories : on demande à l’IA d’identifier ce qui se trouve sur chaque photo, un peu comme un quiz géant de reconnaissance d’images fr.linkedin.com.

Pourquoi utiliser de tels tests ? Pour plusieurs raisons :

  • Mesurer les progrès : les benchmarks permettent de suivre les avancées de génération en génération. Sur ImageNet, par exemple, le taux d’erreur des modèles est passé de 26 % en 2011 à moins de 2 % aujourd’hui fr.linkedin.com – une amélioration spectaculaire qui indique à quel point la vision par ordinateur s’est perfectionnée.
  • Comparer les modèles : c’est un peu le championnat des IA. Si deux équipes développent chacune leur modèle, elles peuvent le faire concourir sur le même benchmark et voir qui obtient le meilleur score fr.linkedin.com. Cela aide à identifier quelles techniques fonctionnent le mieux.
  • Guider la recherche : les benchmarks font office de boussoles. En définissant des défis précis (par ex. “détecter des objets dans une image” ou “comprendre des questions en anglais”), ils indiquent aux chercheurs quelles compétences de l’IA méritent d’être améliorées en priorité fr.linkedin.com.
  • Motiver et faire briller : battre un record sur un benchmark reconnu, c’est un peu comme décrocher la médaille d’or aux JO pour une entreprise tech. Ça fait les gros titres et impressionne les clients ou investisseurs. Les entreprises n’hésitent pas à communiquer quand leur IA est “numéro 1” sur un test réputé fr.linkedin.comfr.linkedin.com – c’est du “benchmarketing” ! (Mais attention à ne pas entraîner l’IA que pour l’examen, on y reviendra…).

En somme, un benchmark d’IA, c’est un test de connaissances ou de compétences pour intelligence artificielle. Comme un examen scolaire ou le permis de conduire, mais adapté aux machines. Et tout comme les élèves, nos pauvres IA peuvent le bachoter : elles s’entraînent spécifiquement dessus dans l’espoir de décrocher la meilleure note.

Petite histoire des benchmarks : de Deep Blue à GPT-4

Les premiers grands “examens” pour IA ont souvent pris la forme de défis emblématiques. Par exemple, on a longtemps considéré que battre un humain aux échecs serait un jalon majeur. En 1997, l’ordinateur d’IBM Deep Blue a réussi cet exploit en vainquant le champion du monde Garry Kasparov – un événement devenu mythique dans l’histoire de l’IA en.wikipedia.org. Par la suite, les regards se sont tournés vers d’autres jeux complexes : en 2016, l’IA AlphaGo de Google DeepMind a battu le champion Lee Sedol au jeu de Go, un jeu bien plus difficile à maîtriser pour une machine. Cette victoire a été saluée comme un tournant majeur de la recherche en IA en.wikipedia.org, au point qu’un expert d’IBM a déclaré que “les jeux de plateau ne servent plus de baromètre significatif” après cela en.wikipedia.org. En clair : ces défis-là, c’est coché ! Il fallait trouver de nouveaux examens encore plus relevés.

En parallèle de ces exploits très médiatisés, la communauté scientifique a développé des benchmarks standardisés pour évaluer l’IA de manière plus systématique. En vision par ordinateur, l’introduction d’ImageNet en 2009 a fait l’effet d’un électrochoc. Chaque année, un concours était organisé pour classifier le mieux possible 1,3 million d’images issues d’ImageNet. En 2012, le modèle AlexNet a écrasé la concurrence en réduisant drastiquement le taux d’erreur grâce aux réseaux de neurones profonds, inaugurant l’ère du deep learning fr.linkedin.comfr.linkedin.com. Aujourd’hui, les meilleurs modèles frôlent 98 % de précision sur ce test, faisant même mieux que l’humain moyen estimé à ~95 % fr.linkedin.com. Oui, vous avez bien lu : sur ce concours visuel, les machines nous dépassent désormais !

Côté langage, les chercheurs ont concocté des bancs d’essai façon multitests de QI. Un bon exemple est GLUE (General Language Understanding Evaluation), introduit en 2018, qui combine neuf épreuves différentes de compréhension du langage – un mélange allant de l’analyse de sentiments (dire si une phrase est positive ou négative) à des inférences plus subtiles (comprendre des sous-entendus entre deux phrases) fr.linkedin.com. On peut voir GLUE comme un décathlon pour IA linguistique : il donne un score global sur l’ensemble, ce qui oblige une IA à être assez polyvalente. Après quelques années, les modèles sont devenus si forts sur GLUE qu’ils frôlaient le score maximal. Du coup, hop, on a sorti son “grand frère” : le benchmark SuperGLUE, avec des exercices encore plus tordus, notamment des phrases à pronoms ambigus à démêler ou de la compréhension de texte faisant appel à la logique fr.linkedin.com. C’est un schéma qu’on a souvent vu : un nouveau test arrive, les IA progressent rapidement dessus, puis saturent le plafond… alors on crée un nouveau benchmark plus difficile, et c’est reparti pour un tour fr.linkedin.comfr.linkedin.com. On a ainsi vu émerger en 2020-2021 des challenges comme MMLU (qui pose des questions sur 57 matières du niveau lycée à la fac, de la maths à l’histoire) pour évaluer nos grands modèles de langage type GPT fr.linkedin.com.

Enfin, les benchmarks multimodaux et créatifs pointent aussi le bout de leur nez. Par exemple, VQA teste la capacité d’une IA à répondre à des questions en langage naturel sur une image (un vrai *« Qui est-ce ? » visuel) fr.linkedin.com. D’autres mesures évaluent les IA génératives : en image, on a le score FID qui juge si les images inventées par l’IA paraissent réalistes fr.linkedin.com, ou en texte des scores comme BLEU pour la qualité des traductions fr.linkedin.com. Certes, ces noms peuvent sembler barbares, mais retenez l’essentiel : chaque nouvelle capacité de l’IA a son examen dédié. Que ce soit créer un tableau, résumer un article ou jouer à Minecraft, tôt ou tard quelqu’un propose un benchmark pour le mesurer !

Où en est-on aujourd’hui ? (Spoiler : les IA cartonnent… mais trichent un peu)

En 2023-2024, on a atteint un point incroyable : les IA réussissent bon nombre de nos propres examens, et parfois mieux que nous ! Par exemple, le modèle GPT-4 d’OpenAI a obtenu des scores équivalents aux meilleurs élèves humains sur tout un tas d’examens académiques et professionnels. OpenAI a ainsi annoncé que GPT-4 se classait dans le top 10  des candidats à l’examen du barreau américain (l’examen pour devenir avocat), et carrément dans le top 1 au concours international de biologie johnkoetsier.com. En clair, sur ces tests très pointus, cette IA a fait mieux que 90 % des juristes en herbe et 99 % des lycéens biologistes ! D’ailleurs GPT-4 figure aussi parmi les meilleurs à des examens variés en mathématiques, en économie, en histoire, etc. johnkoetsier.com. Cela illustre à quel point les modèles actuels, dopés par des milliards de paramètres et d’énormes bases d’entraînement, ont franchi un cap.

Face à ces succès, on pourrait penser “ça y est, l’IA nous a rattrapés”. Cependant, la réalité est plus nuancée. D’abord, exceller à un test ne signifie pas que l’IA comprend vraiment tout comme un humain. Souvent, elle a appris à reconnaître des schémas et à optimiser son score, sans le bon sens général que nous avons. Un adage populaire en IA est la loi de Goodhart : « Quand une mesure devient un objectif, elle cesse d’être une bonne mesure » fr.linkedin.com. Autrement dit, quand on entraîne un modèle spécifiquement pour battre un benchmark, il risque de faire de la triche déguisée : au lieu d’apprendre à raisonner de manière générale, il peut exploiter des trucs spécifiques au test, des astuces statistiquement payantes mais pas forcément signe d’une vraie intelligence. Un peu comme un élève qui bachote juste pour l’examen sans rien retenir du programme… il aura la note, mais pas la compréhension profonde.

Plusieurs limites des benchmarks actuels sont apparues. Déjà, certains modèles deviennent hyper-spécialisés sur un test et perdent leurs moyens dès qu’on change un tout petit les conditions. Par exemple, une IA entraînée pour répondre à des questions Wikipédia pourra être déconcertée si la question est tournée différemment ou concerne un texte un peu inédit. Ensuite, il y a le risque de surestimer les capacités : un score “humain++” sur un benchmark ne veut pas dire que l’IA pense comme un humain. GPT-4 peut réussir l’examen du barreau, mais il n’a jamais “étudié le droit” ni compris la loi comme un juriste – il a surtout vu d’innombrables questions similaires dans ses données et recraché un modèle de réponse type. Enfin, les benchmarks traditionnels ont souvent un périmètre très limité (une tâche bien définie, des données figées). Or la vraie intelligence, elle, se manifeste dans des situations ouvertes, imprévues, où il faut improviser. Là-dessus, les IA ont encore du chemin à faire.

Ces limites expliquent pourquoi de nouveaux benchmarks sont sans cesse créés. Dès qu’un test est maîtrisé par la majorité des modèles, il devient un peu obsolète pour la recherche. L’attention se tourne alors vers la prochaine montagne à gravir. C’est ainsi qu’après GLUE on a sorti SuperGLUE, et qu’on élabore aujourd’hui des challenges encore plus complexes dès que les précédents sont “trop faciles” pour les IA fr.linkedin.com. Parfois, c’est le public lui-même qui invente des évaluations ludiques pour pousser les IA dans leurs retranchements. En 2024, une tendance virale a émergé : tester les générateurs d’images ou de vidéos avec des tâches insolites. Le meilleur exemple ? Demander à une IA de produire une vidéo ultra réaliste de Will Smith mangeant des spaghettis 🍝 innovations.fr. Ce défi un peu absurde est devenu le mème du moment : à chaque nouveau modèle, hop, quelqu’un vérifie s’il sait animer l’acteur en train de déguster des pâtes à la sauce tomate. Des développeurs ont aussi connecté des IA à Minecraft pour voir si elles pouvaient bâtir des châteaux, ou les ont fait s’affronter à des jeux de société comme le Pictionnary innovations.fr. Ces “benchmarks du dimanche” font sourire et montrent l’engouement du grand public, même s’ils sont moins sérieux scientifiquement. Comme l’a noté un professeur, on manque encore de comparatifs solides IA vs Humains sur des tâches concrètes du quotidien (médecine, service client, etc.), et c’est un vrai défi à relever innovations.fr. Les exercices farfelus ont au moins le mérite de rappeler qu’une IA vraiment utile devrait briller ailleurs que sur papier… ou sur spaghetti 😉.

Demain : des défis plus généraux, GAIA et l’ère de l’IA “tout-terrain”

Les modèles d’IA atteignent désormais des scores quasi surhumains dans de nombreux examens académiques, mais un nouveau benchmark GAIA vient rebattre les cartes. Conçu par des chercheurs de Meta, Hugging Face et consorts, GAIA (General AI Assistants) est un “examen tout-terrain” qui évalue les IA sur des tâches pratiques et complexes inspirées du monde réel : navigation web, analyse de données, multimodalité, etc. medium.com. Les questions sont simples pour un humain moyen, mais redoutables pour nos intelligences artificielles. La preuve : dans la première version du test, un humain réussissait 92 % des questions contre à peine 15 % pour GPT-4 armé de ses plugins medium.com. Pire, sur les problèmes les plus corsés de GAIA, GPT-4 n’a initialement obtenu aucun point (0 % de réussite au niveau 3) ar5iv.labs.arxiv.org. Cette contre-performance spectaculaire contraste avec les exploits récents des IA sur des concours spécialisés où elles surclassent des experts humains. Ici, GAIA cherche au contraire à tester l’ingéniosité “tout-terrain” d’une IA : sa capacité à combiner raisonnement, outils et planification pour résoudre des tâches de la vraie vie, pas des quiz scolaires pièges.

GAIA propose trois niveaux de difficulté croissante medium.com :

  • Niveau 1 – Des questions en moins de 5 étapes, ne demandant qu’un minimum d’outils. Exemple : « Retrouver le nombre d’inscrits d’un essai clinique en 2018 sur le site des NIH ». Ce sont les plus simples… du moins pour nous ! Les meilleurs modèles d’IA actuels y affichent désormais autour de 80 % de réussite, signe qu’ils commencent à maîtriser ces tâches de base.
  • Niveau 2 – Des défis intermédiaires (5 à 10 étapes) nécessitant de coordonner plusieurs outils ou sources d’information. Exemple : « Comparer deux statistiques économiques de 2009 via le site du Bureau of Labor Statistics ». Là encore, les systèmes progressent vite et frôlent les ~70 % de succès sur ce niveau. On voit apparaître des agents spécialisés capables de raisonner et d’enchaîner les actions de façon de plus en plus fiable.
  • Niveau 3 – Des problèmes complexes demandant une véritable planification sur le long terme et l’orchestration avancée d’outils variés. Exemple : « Calculer le pourcentage de normes alimentaires américaines de 1959 qui ont été remplacées à ce jour ». Ce sont des exercices fastidieux même pour un humain expert (plusieurs heures de travail). Pour l’IA, c’est le pire terrain : même les modèles les plus sophistiqués – comme Claude 4 (versions Sonnet ou Opus), GPT-4 dernière génération ou Gemini 2.5 Pro de Google DeepMind – plafonnent autour de 60 % de réussite sur ces tâches ultra-pointues. En clair, il reste du chemin avant de rivaliser avec l’ingéniosité et la débrouillardise humaines sur des problèmes ouverts.

La progression récente est fulgurante. Il y a un an à peine, aucun agent intelligent ne dépassait 10–15 % de réussite globale sur GAIA. GPT-4 outillé de 2023 tournait autour de 15 %, c’est tout dire medium.com. Mais depuis, chaque labo y va de son agent “généraliste” et les scores grimpent en flèche : l’agent HuggingFace a atteint ~33 %, Microsoft ~38 %, Google ~49 %, et le record est tombé fin 2024 avec 65 % décroché par un agent H2O.ai h2o.ai. Cela représente un bond de 15 points par rapport au précédent record (50 %) détenu par Google linkedin.com – et environ 70 % de bonnes réponses sur les questions de niveau 1. À ce rythme, les créateurs de GAIA estiment que leur benchmark sera « résolu » d’ici six mois, les meilleurs agents frisant le 100 % toutes catégories. Ils se donnent donc peu de temps avant de devoir inventer un nouvel examen encore plus général pour continuer à départager les IA les plus avancées. L’ère de l’IA tout-terrain ne fait que commencer, avec des modèles toujours plus polyvalents (reconnaissance à Anthropic et son Claude 4, ou à Google avec Gemini 2.5 Pro récemment) prêts à relever des défis autrefois inimaginables. 🚀

Moralité : la prochaine fois que vous entendrez qu’une IA a obtenu 20/20 à un examen, pas la peine de crier au génie trop vite. Dites-vous que ce résultat parfait vient peut-être d’un test maison un peu trop facile, conçu sur mesure pour faire briller son champion. En somme, du “benchmarketing” plus que de l’intelligence ! 😉arxiv.org

Sources :

GAIA benchmark (Meta/Hugging Face) medium.commedium.com; résultats GPT-4 et humains medium.comar5iv.labs.arxiv.org; progrès récents des agents GAIA h2o.ailinkedin.com.

Laisser un commentaire