En septembre 2024, le paysage de l’intelligence artificielle a été marqué par des évolutions significatives, notamment avec l’arrivée en tête de la Chatbot Arena du modèle o1 d’OpenAI. Simultanément, le modèle Grok-2 a fait une entrée remarquée, témoignant de l’intense compétition entre les géants de l’IA. La Chatbot Arena, un classement établi par des chercheurs de l’Université de Berkeley, se veut un reflet impartial des performances des modèles génératifs, grâce à l’évaluation des utilisateurs.
Classement des modèles d’IA génératifs en septembre 2024
Le mois de septembre a vu OpenAI reprendre les trois premières positions de la Chatbot Arena avec ses nouveaux modèles conçus pour les tâches complexes.
- OpenAI a dominé le classement avec cinq modèles dans le top dix, notamment grâce aux modèles o1-preview et o1-mini, ainsi que les dernières versions de GPT-4o et GPT-4o mini.
- Google et ses modèles Gemini ont maintenu une forte présence, se hissant respectivement en 4e et 9e positions.
- Anthropic et xAI, la société fondée par Elon Musk, ont également marqué le classement avec des modèles en 8e et 5e position pour Grok-2, et 10e position pour Grok-2 Mini.
Analyse des performances des modèles Grok
Les modèles Grok-2 et Grok-2 mini, lancés en août, ont fait une entrée fracassante dans le classement de septembre.
Le modèle Grok-2 s’est classé en 5e position, tandis que le Grok-2 mini a pris la 10e place. Ces résultats corroborent les benchmarks publiés par xAI, suggérant que ces modèles pouvaient rivaliser avec GPT-4 Turbo ou Gemini 1.5 Pro.
Cette percée témoigne de la montée en puissance des nouveaux acteurs du marché, capables de défier les leaders établis comme OpenAI et Google.
Critères de classement de la Chatbot Arena
La Chatbot Arena s’appuie sur une méthode de classement originale pour évaluer les modèles d’IA génératifs.
- Les utilisateurs évaluent deux modèles anonymisés en se basant sur un prompt identique.
- Chaque modèle reçoit un score Elo, une cote évolutive en fonction de ses performances face à d’autres modèles.
- Ce système, inspiré des compétitions d’esport et d’échecs, permet d’établir un classement objectif et dynamique.
Cette approche vise à pallier les limites des évaluations internes des entreprises, offrant ainsi une perspective plus impartiale sur les capacités des modèles d’IA.
Classement détaillé des modèles en septembre 2024
Voici le classement des 10 modèles d’IA les plus performants en septembre 2024 :
- o1-preview : 1 355 (Score Elo)
- ChatGPT 4o Latest : 1 335
- o1-mini : 1 324
- Gemini 1.5 Pro 0827 : 1 299
- Grok-2 0813 : 1 294
- GPT-4o 0512 : 1 285
- GPT-4o mini 0718 : 1 273
- Claude 3.5 Sonnet : 1 269
- Gemini 1.5 Flash 0827 : 1 269
- Grok-2 Mini 0813 : 1 267
La dynamique du marché de l’IA générative en septembre 2024 montre une compétition féroce entre les acteurs établis et les nouveaux venus. OpenAI, Google, et xAI se disputent les premières places, tandis que Meta et Mistral restent en retrait. Cette compétition stimule l’innovation et pousse chaque entreprise à améliorer constamment ses modèles pour rester en tête. Pour plus de détails sur les évolutions de l’IA, vous pouvez voir nos dernières ressources sur l’IA .