OpenAI lance GDPval pour mesurer l’IA face à l’expertise humaine

Image d'illustration. OpenAIOpenAI / PR-ADN
Avec GDPval, OpenAI met sa nouvelle IA à l’épreuve sur des tâches concrètes allant de la santé à la finance, en simulant des contextes professionnels complexes.
Tl;dr
- OpenAI lance GDPval, un benchmark pour tester GPT-5 sur des tâches professionnelles à réelle valeur économique.
- 1320 tâches spécialisées couvrant 44 métiers permettent de comparer la performance de l’IA à celle de professionnels expérimentés.
- Le futur du travail se transforme, mais l’IA reste évaluée dans un contexte limité et le rôle des humains demeure essentiel.
Un nouveau défi pour l’intelligence artificielle
Si les ambitions d’OpenAI n’étaient plus à prouver, la start-up américaine derrière ChatGPT franchit aujourd’hui une étape décisive. Avec l’introduction de son tout dernier benchmark, baptisé GDPval, elle entend confronter sa prochaine génération de modèle – GPT-5 – à des professionnels chevronnés issus d’univers aussi variés que la santé, la finance ou le journalisme. Ce n’est plus ici une question d’exceller lors de concours académiques ou d’épreuves théoriques : il s’agit de rivaliser avec l’humain sur ce qu’il a de plus concret, c’est-à-dire des « tâches à réelle valeur économique ».
Des évaluations inspirées du quotidien professionnel
Ce nouveau référentiel ne se limite pas à quelques tests standards. En réalité, il s’appuie sur un panel impressionnant : 1320 tâches spécialisées, chacune élaborée et validée par des professionnels totalisant en moyenne plus de 14 ans d’expérience. Parmi les livrables exigés, on retrouve :
- Dossiers juridiques ;
- Plans de soins infirmiers ;
- Tableurs financiers ou encore schémas techniques.
Selon le billet publié par OpenAI : « Contrairement aux benchmarks traditionnels, les tâches GDPval ne sont pas de simples instructions textuelles ». Chaque tâche s’accompagne d’un contexte riche (fichiers de référence, supports multimédias…) afin de simuler au mieux les exigences réelles du monde du travail.
Métiers concernés et portée du test
Quarante-quatre métiers répartis sur neuf secteurs composent ce vaste terrain d’expérimentation. Des professions telles que concierges, infirmiers, développeurs, avocats, ingénieurs, journalistes ou analystes financiers figurent dans cette liste éclectique. L’objectif ? Évaluer si GPT-5, et par extension l’intelligence artificielle dite « générale » (AGI), peut s’approcher – voire égaler – la qualité du travail produit par un spécialiste humain.
L’avenir du travail : transformation inéluctable mais modulable
Faut-il craindre que l’IA supprime purement et simplement certains emplois ? Difficile d’éluder la question tant elle agite déjà le débat public. À ce stade, reconnaît même OpenAI, GDPval reste « une étape précoce qui ne reflète pas toute la complexité des activités économiques réelles ». Le système évalue les IA sur des scénarios isolés sans intégrer la construction progressive du contexte ou l’enrichissement au fil des versions successives. Pourtant, la tendance est claire : le paysage professionnel sera bouleversé. Reste à savoir comment chaque société saura apprivoiser ces mutations – car si le contenu du travail changera indéniablement dans les prochaines décennies, le besoin d’humain n’a pas dit son dernier mot.