OpenAI révolutionne l'IA avec le lancement de GPT-4o

Ce lundi, OpenAI a dévoilé son nouveau modèle d'IA générative phare, baptisé GPT-4o. Le "o" signifiant "omni", ce qui indique sa capacité à traiter du texte, de la parole et de la vidéo. Le déploiement se fera progressivement sur les produits destinés aux développeurs et aux consommateurs au cours des prochaines semaines. Il est déjà disponible en France.


Selon Mira Murati, directrice des nouvelles technologies d'OpenAI, GPT-4o offre une intelligence équivalente à GPT-4 mais améliore les capacités de ce dernier sur plusieurs modalités et médias. Il raisonne à travers la voix, le texte et la vision, a-t-elle déclaré lors d'une présentation en direct depuis les bureaux de l'entreprise à San Francisco. Le modèle précédent, GPT-4 Turbo, pouvait analyser des images et du texte pour accomplir des tâches comme l'extraction de texte à partir d'images ou la description du contenu de ces dernières. GPT-4o va encore plus loin en intégrant la parole, permettant ainsi une interaction plus naturelle et fluide avec l'IA. Cette avancée permet une amélioration de l'expérience utilisateur dans ChatGPT. Ce dernier proposait déjà un mode vocal qui transcrivait les réponses en utilisant un modèle de synthèse vocale, mais GPT-4o suralimente cette fonctionnalité, permettant aux utilisateurs d'interagir avec lui comme avec un véritable assistant personnel.


Une interaction plus naturelle

Les utilisateurs peuvent désormais poser des questions à ChatGPT et l'interrompre en cours de réponse. Le modèle offre une réactivité en temps réel et peut capter les nuances dans la voix d'un utilisateur, générant des réponses avec une gamme de styles émotionnels différents, y compris le chant. Il améliore également ses capacités visuelles. À partir d'une photo ou d'un écran de bureau, ChatGPT peut répondre rapidement à des questions, allant de "Que se passe-t-il dans ce code logiciel ?" à "Quelle marque de chemise porte cette personne ?"


Vers un futur plus intuitif

Ces fonctionnalités sont appelées à évoluer. Aujourd'hui, GPT-4o peut traduire une image de menu dans une langue différente. Demain, le modèle pourrait permettre à ChatGPT de regarder un match sportif en direct et d'en expliquer les règles.

Nous voulons que l'expérience d'interaction devienne plus naturelle et facile, sans que vous ayez à vous concentrer sur l'interface utilisateur, mais simplement sur la collaboration avec ChatGPT. Depuis quelques années, nous avons travaillé à améliorer l'intelligence de ces modèles. Aujourd'hui, nous faisons un grand pas en avant en matière de facilité d'utilisation. Mira Mirati


Une IA multilingue et accessible

GPT-4o est également en progrès au niveau multilingue, avec des performances améliorées dans une cinquantaine de langues. Dans l'API d'OpenAI, il est deux fois plus rapide, à moitié prix et offre des limites de taux plus élevées que GPT-4 Turbo. Actuellement, la fonctionnalité vocale de son API n'est pas accessible à tous les clients. OpenAI prévoit de lancer d'abord cette fonctionnalité à un petit groupe de partenaires de confiance pour minimiser les risques d'utilisation abusive. Le modèle est disponible gratuitement dans ChatGPT dès aujourd'hui, et pour les abonnés aux plans ChatGPT Plus et Team, avec des limites de messages cinq fois plus élevées. ChatGPT basculera automatiquement sur GPT-3.5 lorsque les utilisateurs atteindront la limite. La nouvelle expérience vocale sera disponible en alpha pour les utilisateurs Plus dans le mois à venir, avec des options axées sur les entreprises.


En parallèle, OpenAI lance une interface utilisateur rafraîchie de ChatGPT sur le web, avec un nouvel écran d'accueil et une mise en page de messages plus conversationnels, ainsi qu'une version de bureau pour macOS. Les utilisateurs payants auront accès à cette application en premier, et une version Windows est prévue plus tard dans l'année. De plus, le GPT Store, la bibliothèque de chatbots tiers, est désormais accessible aux utilisateurs de la version gratuite. Ces derniers peuvent également bénéficier de fonctionnalités auparavant payantes, comme la capacité de mémoire permettant à ce dernier de se souvenir des préférences pour de futures interactions. GPT-4o marque une étape majeure dans l'évolution de l'IA, rendant l'interaction avec les machines plus naturelle, intuitive et accessible à un plus large public.

Plus récente Plus ancienne