OpenAI présente Codex

La nouvelle révolution de l’IA pour le développement logiciel parallèle dans le cloud

Avec Codex, OpenAI présente un agent logiciel innovant basé sur le cloud, qui automatise et accélère de nombreuses tâches dans le domaine du développement logiciel. Ce service est désormais disponible pour ChatGPT Pro, Team et Enterprise ; les utilisateurs Plus y auront accès prochainement.

Qu’est-ce que Codex ?

Codex est un agent logiciel puissant, basé sur le cloud, développé par OpenAI pour assister les développeurs dans de nombreuses tâches. Le système peut implémenter des fonctionnalités, répondre à des questions sur la base de code, corriger des erreurs et proposer des Pull Requests à examiner. Chaque tâche est exécutée dans un environnement cloud isolé, automatiquement chargé avec le dépôt correspondant.

Codex

Codex repose sur le modèle codex-1, une variante d’OpenAI o3 spécialement optimisée pour l’ingénierie logicielle. Le modèle a été entraîné par apprentissage par renforcement sur des tâches de programmation réelles et s’inspire fortement des styles de code humains et des préférences en matière de Pull Requests.

Fonctionnement et application

Codex est accessible directement depuis l’interface ChatGPT. Les nouvelles tâches sont lancées simplement via une saisie de texte dans la barre latérale. Les questions sur le code peuvent être adressées avec « Ask », tandis que les tâches de développement sont déclenchées avec « Code ». Chaque tâche s’exécute indépendamment dans un bac à sable dédié, préconfiguré avec tous les fichiers et dépendances pertinents du dépôt.

Was kann Codex?

  • Création parallèle de PR GitHub : Codex peut créer automatiquement des Pull Requests (PR) pour des corrections de bugs, des mises à jour de documentation ou de petites fonctionnalités, et les traiter en parallèle.
  • Navigation et analyse de la base de code : Codex navigue dans toute votre base de code, détecte les bugs, vérifie le code et propose des améliorations ciblées.
  • Vérifications Lint et tests automatisés : Exécute des linters, des vérifications de types ainsi que des tests unitaires et d’intégration – y compris la configuration des dépendances nécessaires.
  • Soutien aux grandes bases de code : Codex fonctionne avec un nouveau modèle de programmation particulièrement adapté aux grands projets et aux bases de code complexes.
  • Lecture et modification de fichiers : Codex peut consulter, modifier et éditer des fichiers directement dans le contexte de la tâche.
  • Planification détaillée et gestion des tâches : Il crée des suggestions d’optimisation, planifie les étapes de travail et attribue les tâches en conséquence (par exemple, « Suggère 3 optimisations et crée un plan de tâches »).
  • Workflow transparent et progression en temps réel : La durée de traitement des tâches varie selon la complexité, les progrès et modifications sont visibles en direct à tout moment.
  • Documentation traçable : Toutes les modifications sont validées dans un environnement isolé et documentées de manière transparente via les logs du terminal et les résultats des tests.
  • Intégration et processus de revue : Les développeurs peuvent vérifier les résultats, demander des modifications, ouvrir des Pull Requests ou intégrer les résultats dans leur environnement local.
  • Environnement de développement configurable : L’environnement peut être adapté pour correspondre au plus près à l’environnement de développement réel.

Une particularité concerne les fichiers AGENTS.md : ils fournissent à Codex des instructions précises sur la façon dont le système doit se comporter dans le projet – comparable à un README étendu. On peut y définir, par exemple, des commandes de test ou des méthodes de travail spécifiques. Comme les développeurs humains, Codex bénéficie d’une documentation claire et d’environnements de test fiables.

Données d’entraînement et performance

Codex a été entraîné sur une grande variété de tâches réelles de développement logiciel et atteint déjà un haut niveau de qualité de solution sans ajustement spécifique au projet. Des benchmarks internes montrent que le modèle exécute les tâches avec précision selon les standards humains, suit exactement les instructions et effectue automatiquement les tests jusqu’à obtenir un résultat positif.

Sur le benchmark interne SWE d’OpenAI, codex-1 atteint une précision nettement supérieure à celle des modèles précédents. Les détails et résultats concrets sont disponibles dans l’article en anglais d’OpenAI.

Sécurité et fiabilité

Codex est d’abord proposé en aperçu de recherche. La conception du système accorde une grande importance à la sécurité et à la transparence : toutes les actions sont documentées par des logs de terminal et des résultats de tests, permettant aux utilisateurs de suivre à tout moment le fonctionnement de l’agent. En cas d’incertitude ou d’échec des tests, Codex informe explicitement et donne des indications sur la marche à suivre.

Malgré toute l’automatisation, il reste essentiel de vérifier manuellement toutes les modifications générées par Codex avant fusion ou exécution.

Protection contre les abus et exécution sécurisée

La prévention de l’utilisation abusive, en particulier pour des tâches telles que le développement de logiciels malveillants, est une priorité centrale. Codex a été entraîné pour refuser spécifiquement les demandes de développement de logiciels nuisibles tout en soutenant les tâches légitimes – y compris dans le domaine du low-level engineering. Les politiques de sécurité ont été renforcées et complétées par des évaluations approfondies, également documentées dans le System Card Addendum.

Pendant le traitement, Codex travaille exclusivement dans un environnement cloud isolé sans accès à Internet. L’accès est limité au dépôt fourni et aux dépendances préconfigurées ; les services externes restent inaccessibles.

Exemples d’utilisation pratique

En interne chez OpenAI, Codex est déjà utilisé intensivement, par exemple pour externaliser des tâches répétitives telles que le refactoring, la génération de tests ou la rédaction de documentation. Les équipes utilisent l’automatisation pour livrer plus rapidement et se concentrer sur des tâches complexes. Des partenaires externes testent également Codex :

  • Cisco évalue Codex pour accélérer le développement de fonctionnalités et l’innovation produit stratégique.
  • Temporal utilise Codex pour la correction de bugs, l’automatisation des tests et le refactoring du code.
  • Superhuman utilise Codex pour accélérer la couverture des tests et les petites tâches d’intégration – les chefs de produit peuvent ainsi contribuer aux premiers changements de code.
  • Kodiak accélère le développement de sa pile de conduite autonome avec Codex, par exemple via des outils de débogage et l’optimisation des tests.

Sur la base de ces expériences, OpenAI recommande d’attribuer des tâches bien délimitées à plusieurs instances de Codex et de tester différentes stratégies de prompt afin d’exploiter au maximum le potentiel du système.

Codex CLI et accès développeur

En parallèle de la solution cloud, la Codex CLI est désormais disponible – un agent open source léger pour la ligne de commande. Il intègre des modèles comme o3 et o4-mini directement dans l’environnement de développement local. Une nouvelle variante spécialement optimisée (codex-mini-latest) a été introduite, conçue pour une faible latence et des interactions rapides avec le code. Ce modèle est disponible par défaut dans la CLI ainsi que via l’API, et il est régulièrement mis à jour.

L’inscription à Codex CLI a été simplifiée : au lieu d’une configuration manuelle du token API, il suffit désormais de se connecter avec le compte ChatGPT. Les utilisateurs Pro et Plus reçoivent également un crédit API gratuit temporaire (jusqu’à 50 USD) pour faciliter la prise en main.

Disponibilité, tarifs et limitations

Codex est dès à présent déployé dans le monde entier pour ChatGPT Pro, Enterprise et Team. Les utilisateurs Plus et Edu suivront prochainement. Le service est initialement utilisable sans frais supplémentaires ; dans les prochaines semaines, des limitations d’utilisation et des modèles tarifaires flexibles seront introduits, permettant d’acheter une consommation supplémentaire selon les besoins.

Le modèle codex-mini-latest est disponible pour les développeurs via la Responses API et est facturé 1,50 USD par million de tokens entrants et 6 USD par million de tokens sortants – avec une remise de 75 % sur les prompts répétés.

En tant qu’aperçu de recherche, Codex ne propose pas encore certaines fonctionnalités telles que les entrées d’images pour les tâches frontend ou la possibilité d’intervenir directement pendant l’exécution des tâches. Travailler avec un agent distant peut également prendre plus de temps que l’édition interactive, ce qui nécessite un certain temps d’adaptation.

Perspectives et évolutions futures

OpenAI travaille sur une suite d’outils complète, prenant en charge à la fois la collaboration en temps réel et la délégation asynchrone. La vision : les développeurs prennent en charge les tâches qu’ils souhaitent concevoir eux-mêmes et délèguent tout le reste à des agents IA intelligents – pour plus de rapidité et de concentration. À l’avenir, les développeurs pourront également contrôler les agents Codex pendant l’exécution des tâches, élaborer ensemble des stratégies et recevoir des mises à jour de statut proactives. Des intégrations plus poussées avec les outils existants tels que les trackers d’incidents, les systèmes CI et ChatGPT Desktop sont également prévues.

L’intégration d’agents IA comme Codex transforme fondamentalement le développement logiciel et ouvre de nouvelles possibilités pour les équipes et les développeurs individuels. OpenAI étudie, en collaboration avec ses partenaires, l’impact sur les flux de travail et le développement des compétences, en adoptant une approche responsable et itérative.

Informations complémentaires et message système

Pour plus de détails et de benchmarks, il est recommandé de consulter l’article en anglais d’OpenAI. Pour mieux comprendre le fonctionnement de Codex, OpenAI a également publié le message système de codex-1. Celui-ci contient notamment des directives pour les workflows Git, l’utilisation des fichiers AGENTS.md et la documentation précise de toutes les étapes de travail, permettant aux développeurs d’adapter l’agent à leurs propres processus.


Publié

dans

par