Selon OpenAI, GPT-5.4 est un modèle « Frontier » optimisé spécifiquement pour le travail intellectuel professionnel et les workflows agentiques, disponible dans ChatGPT, l’API et Codex. Au cœur, il combine une meilleure planification et recherche, d’excellentes capacités de code, une utilisation native de l’ordinateur et une efficacité de tokens nettement améliorée, afin de traiter des tâches complexes avec moins d’allers‑retours et à moindre coût. En complément, GPT-5.4 Pro est proposé pour des performances maximales sur les tâches particulièrement exigeantes.
- Quelle variante pour quel mode de travail
- Les chiffres qui prouvent le saut de performance
- Comment les livrables Office et la fiabilité factuelle en profitent
- Ce que l’utilisation native de l’ordinateur change pour les agents
- Quels détails d’image comptent vraiment désormais
- Pourquoi les développeurs changent moins souvent de contexte
- Comment Tool Search réduit les coûts dans les écosystèmes d’outils
- Un exemple de bout en bout tiré du quotidien
Ce que GPT-5.4 apporte concrètement
Quelle variante pour quel mode de travail
GPT-5.4 arrive dans ChatGPT sous le nom de GPT-5.4 Thinking, et également via l’API et Codex. Pour les tâches de complexité maximale, l’entreprise propose en plus GPT-5.4 Pro dans ChatGPT et l’API.
Dans ChatGPT, GPT-5.4 Thinking peut esquisser un plan de travail dès le départ, afin de permettre des corrections précoces avant que le modèle ne plonge dans les détails. L’objectif est de réduire les boucles d’itération, en particulier pour les livrables comme les documents, présentations et tableaux, qui nécessitent sinon plusieurs allers‑retours.
Pour les agents, il est également important que GPT-5.4 apporte des fonctions informatiques natives dans l’API et Codex et prenne en charge jusqu’à 1M tokens de contexte, afin que planification, exécution et vérification restent stables sur de longues séquences de travail.
Positionnement sur le marché comme mini‑modèle Task Tool Token
Pour 2026, le saut de GPT-5.4 peut se résumer en un triptyque simple : Task, Tool, Token. Task renvoie à la qualité sur de vrais livrables, Tool à la capacité d’utiliser de façon fiable logiciels et API, Token aux coûts et à la vitesse sur de longs contextes.
GPT-5.4 adresse ces trois axes simultanément : un meilleur travail de connaissance, de meilleurs agents via les outils et l’ordinateur, et une consommation de tokens réduite pour le raisonnement par rapport à GPT-5.2. Sur le marché, c’est la différence entre un « bon chat » et un « exécutant fiable » pour des processus qui coûtent réellement du temps aux équipes.
Règle de décision claire pour équipes et développeurs
Une règle de choix robuste est la suivante : Thinking pour le travail intellectuel très orienté planification et la recherche web, Pro lorsque la tâche est à haut risque ou fortement ramifiée, par exemple des analyses juridiques, des modèles financiers complexes ou de longues chaînes d’outils avec de nombreuses dépendances. GPT-5.4 dans l’API est particulièrement intéressant lorsqu’un agent doit orchestrer de nombreux outils et applications et que la longueur de contexte ou le coût en tokens étaient jusqu’ici le goulot d’étranglement.
Si la latence compte plus que la profondeur maximale, un mode /fast est en plus prévu dans Codex, qui augmente, selon OpenAI, la vitesse de sortie des tokens sans changer de modèle. C’est pratique pour les boucles de débogage où la vitesse conditionne le flux de travail.
Performance en chiffres
Les chiffres qui prouvent le saut de performance
OpenAI publie plusieurs benchmarks couvrant différents modes de travail : travail intellectuel, coding, utilisation d’outils et recherche web agentique. Le tableau ci‑dessous reprend les valeurs mentionnées pour GPT-5.4, GPT-5.3-Codex et GPT-5.2.
| Benchmark | GPT-5.4 | GPT-5.3-Codex | GPT-5.2 |
|---|---|---|---|
| GDPval (wins ou ties) | 83,0% | 70,9% | 70,9% |
| SWE-Bench Pro (Public) | 57,7% | 56,8% | 55,6% |
| OSWorld-Verified | 75,0% | 74,0% | 47,3% |
| Toolathlon | 54,6% | 51,9% | 46,3% |
| BrowseComp | 82,7% | 77,3% | 65,8% |
Remarque de la source : selon OpenAI, la valeur OSWorld pour GPT-5.3-Codex est liée à un nouveau paramètre d’API qui préserve la résolution d’image d’origine. Par ailleurs, une valeur OSWorld précédemment communiquée a été corrigée.
Comment les livrables Office et la fiabilité factuelle en profitent
Sur le benchmark GDPval, qui évalue un travail intellectuel bien spécifié sur 44 professions, GPT-5.4 atteint, selon OpenAI, au moins l’égalité avec des professionnels du secteur dans 83,0 % des comparaisons. GPT-5.2 se situait à 70,9 % dans la même représentation.
Pour le travail de bureau typique, OpenAI cite deux séries de mesures internes : sur des tâches de modélisation dans des feuilles de calcul, comme on en trouve dans des postes juniors en banque d’investissement, la moyenne passe de 68,4 % à 87,3 %. Pour les tâches de présentation, les évaluateurs humains ont préféré les résultats de GPT-5.4 dans 68,0 % des cas, en raison d’une meilleure mise en forme, d’une plus grande variété visuelle et d’une génération d’images plus efficace.
GPT-5.4 vise en outre à réduire les affirmations erronées : selon OpenAI, les énoncés individuels sont 33 % moins souvent faux et les réponses complètes 18 % moins souvent erronées, toujours par rapport à GPT-5.2, mesuré sur des prompts désidentifiés avec marquage d’erreurs par les utilisateurs.
Pour les usages en entreprise, OpenAI recommande un add-in ChatGPT pour Excel récemment publié, afin de rapprocher ce travail sur les artefacts des workflows existants.
Agents sur ordinateur et en images
Ce que l’utilisation native de l’ordinateur change pour les agents
Selon OpenAI, GPT-5.4 est le premier modèle généraliste de l’entreprise à offrir une utilisation native de l’ordinateur à un niveau state‑of‑the‑art. Il s’agit d’agents qui contrôlent des logiciels via captures d’écran, actions souris et clavier, ou via des bibliothèques d’automatisation comme Playwright.
Pour les développeurs, la contrôlabilité est centrale : le comportement peut être précisé via des Developer Messages, et des règles de confirmation peuvent être définies pour n’exécuter les actions risquées qu’après validation. OpenAI présente cela comme un levier entre autonomie et conformité.
Sur OSWorld-Verified, un test d’environnement desktop avec navigation et saisies basées sur des captures d’écran, OpenAI rapporte 75,0 % de réussite, contre 47,3 % pour GPT-5.2. Dans la même source, la performance humaine est indiquée à 72,4 %.
Quels détails d’image comptent vraiment désormais
Les capacités informatiques reposent sur une perception visuelle stable. Pour MMMU-Pro sans utilisation d’outils, OpenAI annonce 81,2 % pour GPT-5.4, contre 79,5 % pour GPT-5.2.
Pour la compréhension de documents, l’erreur sur OmniDocBench baisse, selon OpenAI, de 0,140 à 0,109, mesurée comme distance d’édition normalisée. Le mode de coût est important : OmniDocBench a été mesuré sans effort de reasoning supplémentaire, afin de refléter un fonctionnement low‑cost, low‑latency.
Nouveauté également : des niveaux de détail d’image gradués pour l’API. Un mode « original » doit prendre en charge jusqu’à 10,24 millions de pixels de surface totale ou 6000 pixels de côté au maximum, selon la limite atteinte en premier. L’ancien mode « high » est décrit avec jusqu’à 2,56 millions de pixels ou 2048 pixels de dimension maximale.
Workflow développeur et écosystème d’outils
Pourquoi les développeurs changent moins souvent de contexte
GPT-5.4 est censé combiner les forces de code de GPT-5.3-Codex avec les capacités d’agent et Office, ce qui compte surtout pour les tâches longues, où l’on itère, teste et vérifie via des outils. Sur SWE-Bench Pro, GPT-5.4 dépasse légèrement GPT-5.3-Codex dans les chiffres cités, tout en offrant, selon OpenAI, une latence réduite à travers les étapes de reasoning.
Dans Codex, un mode /fast peut augmenter la vitesse de sortie, jusqu’à 1,5 fois la vélocité de tokens selon OpenAI, sans modifier « l’intelligence » du modèle. Dans l’API, un Priority Processing est mentionné pour des objectifs similaires.
OpenAI met également en avant des progrès sur les tâches frontend complexes, avec davantage de fonctionnalités et une mise en forme visiblement meilleure. À titre d’exemple, un skill Codex expérimental « Playwright (Interactive) » permet un débogage visuel et des tests interactifs pendant le processus de build.
Comment Tool Search réduit les coûts dans les écosystèmes d’outils
Tool Search répond à un problème de mise à l’échelle très concret : lorsqu’un agent connaît un grand nombre d’outils, le classique « tout mettre dans le prompt » fait exploser l’entrée à des milliers voire des dizaines de milliers de tokens. Tool Search inverse la logique : le modèle ne reçoit d’abord qu’une liste d’outils allégée et peut charger les définitions à la demande.
OpenAI illustre cela avec 250 tâches du Scale MCP Atlas Benchmark, avec 36 serveurs MCP activés : avec Tool Search, la consommation de tokens baisse en moyenne de 47 %, à précision égale. Au‑delà des coûts, cela joue sur la vitesse et la stabilité du contexte, car moins de « texte mort » occupe le cache et la fenêtre de contexte.
Ce qui change dans la recherche web agentique
Pour les informations difficiles à trouver, OpenAI cite BrowseComp comme métrique. GPT-5.4 y progresse de 17 points de pourcentage absolus par rapport à GPT-5.2, GPT-5.4 Pro atteignant 89,3 % selon la source et établissant un nouveau record.
Concrètement, cela signifie que le modèle devrait mener des séquences de recherche plus longues sur plusieurs étapes, mieux pondérer les sources et fusionner plus proprement les résultats, en particulier pour des questions très spécifiques de type « aiguille dans une botte de foin ». OpenAI mentionne l’usage de blocklists pour réduire la contamination des benchmarks.
Mise en œuvre proche du terrain
Un exemple de bout en bout tiré du quotidien
Exemple : une équipe Finance doit chaque semaine vérifier les factures fournisseurs, clarifier les écarts et mettre à jour une slide de management. Avec GPT-5.4, un agent peut d’abord définir le plan : quels champs vérifier dans un tableau, quelles pièces justificatives manquent, quelles questions adresser aux achats, et quels indicateurs intégrer dans la présentation.
L’exécution se déroule ensuite sur trois axes : la logique de tableau est construite ou modifiée dans un tableur, les documents sont extraits de longs contrats et PDF, et, si besoin, l’agent utilise une interface web pour les rapprochements, par exemple des portails ou des outils internes. La décision d’activer ou non le niveau de détail d’image « original » suit une règle simple : ne l’activer que lorsque la précision des clics ou de petits éléments d’UI est critique, sinon rester sur un mode de détail plus économique.
Le plus grand gain de temps provient généralement moins d’une réponse isolée plus pertinente que de la réduction des boucles de correction : moins d’hallucinations, un contexte plus stable sur de nombreuses étapes, et Tool Search, pour éviter de payer à chaque requête la redéfinition complète des outils.

