OpenAI franchit une nouvelle étape dans la génération d’images avec le lancement de son tout nouveau modèle, le 4o Image Generation. Ce dernier remplace désormais DALL-E dans ChatGPT, promettant une qualité visuelle nettement supérieure et une précision accrue par rapport aux demandes utilisateurs. Alors que DALL-E avait marqué les esprits lors de sa sortie en 2021, il s’était rapidement vu distancé par des concurrents tels que Midjourney, FLUX ou Stable Diffusion. Avec ce nouveau modèle, OpenAI entend bien reprendre le leadership dans le domaine de la création graphique assistée par intelligence artificielle. Voici un aperçu détaillé des capacités du nouveau générateur d’images intégré à ChatGPT.
Présentation du modèle 4o Image Generation par OpenAI
OpenAI propose désormais une technologie avancée capable de créer des images conformes aux attentes des utilisateurs tout en conservant un rendu visuellement attrayant.
Selon OpenAI, le modèle 4o Image Generation présente plusieurs avantages notables :
- Respect rigoureux des requêtes émises par les utilisateurs.
- Représentation précise et cohérente du texte intégré dans les images.
- Capacité à exploiter la base de connaissances du modèle GPT-4o et à considérer le contexte du dialogue.
- Possibilité d’intégrer jusqu’à 20 objets différents dans une même image.
- Modification itérative des images existantes pour affiner le produit final selon les souhaits des utilisateurs.
Grâce à un entraînement approfondi sur des ensembles variés d’images et de textes en ligne, ce nouveau modèle génère des visuels à la fois pertinents, cohérents et esthétiquement agréables. De plus, il résout un problème récurrent rencontré par les générateurs d’images actuels : l’intégration harmonieuse et lisible du texte dans les créations visuelles.
Test approfondi des capacités du nouveau générateur d’images ChatGPT
Pour mesurer l’efficacité réelle de 4o Image Generation, nous avons soumis au modèle différents scénarios visuels.
Création d’une image réaliste à partir d’une description simple : nous avons demandé au générateur de représenter une femme assise sur le capot d’une voiture rouge au bord d’un lac. Le résultat s’avère bien supérieur à celui produit auparavant par DALL-E, notamment grâce à un visage fidèle et réaliste.
Composition complexe avec détails précis : afin d’évaluer sa capacité à gérer une requête complexe, nous proposons le prompt suivant : « Une jeune femme, casque audio sur les oreilles, lit tranquillement dans un compartiment de train à grande vitesse. De grandes fenêtres dévoilent un paysage rural flouté par la vitesse, tandis qu’une valise cabine repose à ses pieds ». Le résultat est réussi, avec un rendu fidèle et harmonieux des détails demandés.

Génération d’une affiche graphique stylisée : pour tester ses compétences en création graphique, nous avons sollicité une affiche de style pub, typique des années 1960. Le visuel obtenu correspond parfaitement à la demande, avec des formes abstraites, une typographie sans empattement et des couleurs primaires précises. Le rendu artistique global est impressionnant de réalisme.
Fonctions avancées de modification et retouche des images existantes
Le nouveau modèle d’OpenAI ne se limite pas à créer des images originales, il permet également la modification intuitive un visuels existants.
Nous avons soumis une véritable photographie (de moi même) en demandant simplement au générateur de faire la même image que la précédente.



Pour aller plus loin dans la retouche photo facilitée par l’IA, n’hésitez pas à voir la liste des logiciels de retouche photo avec IA.
Représentation de personnalités publiques : limites et potentiel
La capacité du modèle à représenter explicitement des personnalités connues a également été testée, révélant quelques limitations.

En demandant la génération d’une image représentant Anne hidalgo à vélo dans les rues de Paris, le modèle a accepté la requête, malgré les risques potentiels liés à la désinformation. Toutefois, le visage du maire de paris présentait quelques déformations notables.
En revanche, une description plus générale, comme « Un homme brun d’environ 65 ans pédalant dans les rues de Paris», a produit une image réaliste sans distorsions apparentes. Ce résultat indique une certaine prudence du modèle dans la représentation précise de personnalités publiques réelles.
Bilan des performances de 4o Image Generation
Avec le lancement de 4o Image Generation, OpenAI réaffirme sa position parmi les leaders du marché de la génération d’images par IA.
Certes, la qualité graphique pure reste comparable à celle offerte par des outils comme Midjourney, avec quelques rares imperfections sur les visages humains. Toutefois, la réelle valeur ajoutée du modèle réside dans sa compréhension poussée des requêtes utilisateurs et dans ses capacités à modifier et enrichir les images selon un contexte et des instructions précises. Ces fonctionnalités avancées font indéniablement du 4o Image Generation l’un des générateurs d’images les plus performants et polyvalents actuellement disponibles.
Ainsi, OpenAI parvient avec succès à rattraper son retard accumulé avec DALL-E, proposant désormais un modèle innovant, précis et adapté aux besoins concrets des utilisateurs, particuliers comme professionnels.