OpenAI a annoncé la sortie de son dernier modèle de grand langage, GPT-4. Ce modèle est un grand modèle multimodal qui peut accepter à la fois des entrées d’image et de texte et générer des sorties de texte.
La récente sortie de GPT-4 marque une étape importante dans le domaine de l’intelligence artificielle, en particulier dans le traitement du langage naturel. Dans cet article, nous proposons une analyse approfondie de ses capacités avancées et nous nous penchons sur l’histoire et le développement des transformateurs pré-entraînés génératifs (GPT), ainsi que les nouvelles capacités que GPT-4 débloque.
Que sont les transformateurs génératifs pré-entraînés ?
Les transformateurs génératifs pré-entraînés (GPT) sont un type de modèle d’apprentissage profond utilisé pour générer du texte de type humain. Les utilisations courantes comprennent
- répondre aux questions
- résumer le texte
- traduire le texte dans d’autres langues
- générer du code
- générer des billets de blog, des histoires, des conversations et d’autres types de contenu.
Il existe une infinité d’applications pour les modèles GPT, et vous pouvez même les affiner sur des données spécifiques pour créer des résultats encore meilleurs. En utilisant des transformateurs, vous économiserez des coûts sur l’informatique, le temps et d’autres ressources.
Avant le GPT
La révolution actuelle de l’IA pour le langage naturel n’est devenue possible qu’avec l’invention de modèles de transformateurs, à commencer par le BERT de Google en 2017. Avant cela, la génération de texte était effectuée avec d’autres modèles d’apprentissage profond, tels que les réseaux neuronaux récursifs (RNN) et les réseaux neuronaux à mémoire longue à court terme (LSTM). Ceux-ci ont bien fonctionné pour produire des mots simples ou des phrases courtes, mais n’ont pas pu générer de contenu plus long réaliste.
L’approche de transformation de BERT a été une percée majeure puisqu’il ne s’agit pas d’une technique d’apprentissage supervisé. C’est-à-dire qu’il n’a pas eu besoin d’un ensemble de données annotés coûteux pour le former. BERT a été utilisé par Google pour interpréter les recherches en langage naturel, cependant, il ne peut pas générer de texte à partir d’une invite.
GPT-1
Architecture des transformateurs | Papier GPT-1
En 2018, OpenAI a publié un article (Improving Language Understanding by Generative Pre-Training) sur l’utilisation de la compréhension du langage naturel à l’aide de son modèle de langue GPT-1. Ce modèle était une preuve de concept et n’a pas été rendu public.
GPT-2
Performance du modèle sur diverses tâches | Papier GPT-2
L’année suivante, OpenAI a publié un autre article (Language Models are Unsupervised Multitask Learners) sur leur dernier modèle, GPT-2. Cette fois, le modèle a été mis à la disposition de la communauté de l’apprentissage automatique et a été adopté pour les tâches de génération de texte. GPT-2 pouvait souvent générer quelques phrases avant de se décomposer. C’était à la pointe de la technologie en 2019.
GPT-3
Résultats de trois tâches d’assurance qualité en domaine ouvert | Document GPT-3
En 2020, OpenAI a publié un autre article (Language Models are Few-Shot Learners) sur leur modèle GPT-3. Le modèle avait 100 fois plus de paramètres que GPT-2 et a été entraîné sur un ensemble de données de texte encore plus grand, ce qui a permis d’améliorer les performances du modèle. Le modèle a continué d’être amélioré avec diverses itérations connues sous le nom de série GPT-3.5, y compris le ChatGPT axé sur la conversation.
Cette version a pris le monde d’assaut après avoir surpris le monde avec sa capacité à générer des pages de texte de type humain. ChatGPT est devenu l’application web à la croissance la plus rapide de tous les temps, atteignant 100 millions d’utilisateurs en seulement deux mois.
Vous pouvez en savoir plus sur GPT-3, ses utilisations et comment l’utiliser dans un article séparé.
Apprenez à utiliser ChatGPT avec notre cours Introduction à ChatGPT
Introduction au cours ChatGPT
Commencez avec ChatGPT
Quoi de neuf dans GPT-4 ?
GPT-4 a été développé pour améliorer le “alignement” du modèle – la capacité de suivre les intentions des utilisateurs tout en le rendant plus véridique et en générant une sortie moins offensive ou dangereuse.
Améliorations des performances
Comme vous pouvez vous y attendre, GPT-4 améliore les modèles GPT-3.5 en ce qui concerne l’exactitude factuelle des réponses. Le nombre d'”hallucinations”, où le modèle fait des erreurs factuelles ou de raisonnement, est plus faible, avec un score de 40 % supérieur à GPT-3.5 sur l’indice de référence de performance factuel interne d’OpenAI.
Il améliore également la “steerabilité”, c’est-à-dire la possibilité de modifier son comportement en fonction des demandes des utilisateurs. Par exemple, vous pouvez lui commander d’écrire dans un style, un ton ou une voix différent. Essayez de commencer les invites par “Vous êtes un expert en données garrulous” ou “Vous êtes un expert en données laconiques” et demandez-lui de vous expliquer un concept de science des données. Vous pouvez en savoir plus sur la conception d’excellentes invites pour les modèles GPT ici.
Une autre amélioration est dans l’adhésion du modèle aux garde-corps. Si vous lui demandez de faire quelque chose d’illégal ou de désagréable, il est préférable de refuser la demande.
Utilisation d’entrées visuelles dans GPT-4
Un changement majeur est que GPT-4 peut utiliser des entrées d’image (aperçu de recherche uniquement ; pas encore disponible au public) et du texte. Les utilisateurs peuvent spécifier n’importe quelle tâche de vision ou de langage en entrant du texte et des images entrecoupés.
Les exemples présentés mettent en évidence GPT-4 interprétant correctement des images complexes telles que des graphiques, des mèmes et des captures d’écran d’articles universitaires.
Vous pouvez voir des exemples d’entrée de la vision ci-dessous.
Benchmarks de performance GPT-4
OpenAI a évalué le GPT-4 en simulant des examens conçus pour les humains, tels que l’examen uniforme du barreau et le LSAT pour les avocats, et le SAT pour l’admission à l’université. Les résultats ont montré que GPT-4 a atteint des performances au niveau humain sur divers repères professionnels et académiques.
OpenAI a également évalué GPT-4 sur des benchmarks traditionnels conçus pour les modèles d’apprentissage automatique, où il a surpassé les grands modèles linguistiques existants et la plupart des modèles de pointe qui peuvent inclure une élaboration spécifique à la référence ou des protocoles de formation supplémentaires. Ces points de repère comprenaient des questions à choix multiples dans 57 matières, un raisonnement de bon sens autour des événements quotidiens, des questions scientifiques à choix multiples à l’école primaire, et plus encore.
OpenAI a testé la capacité de GPT-4 dans d’autres langues en traduisant le benchmark MMLU, une suite de 14 000 problèmes à choix multiples couvrant 57 sujets, dans diverses langues à l’aide d’Azure Translate. Dans 24 des 26 langues testées, le GPT-4 a surpassé les performances en anglais du GPT-3.5 et d’autres modèles linguistiques de grande envergure.
Dans l’ensemble, les résultats plus ancrés de GPT-4 indiquent des progrès significatifs dans les efforts d’OpenAI pour développer des modèles d’IA avec des capacités de plus en plus avancées.
Comment accéder au GPT-4
OpenAI publie la capacité de saisie de texte de GPT-4 via ChatGPT. Elle est actuellement disponible pour les utilisateurs de ChatGPT Plus. Il y a une liste d’attente pour l’API GPT-4.
La disponibilité publique de la capacité de saisie d’image n’a pas encore été annoncée.
OpenAI a open-source OpenAI Evals, un cadre d’évaluation automatisée de la performance des modèles d’IA, pour permettre à quiconque de signaler les lacunes de ses modèles et d’orienter d’autres améliorations.
Passez au niveau supérieur
En attendant, vous pouvez lire plus de ressources sur GPT-4, ChatGPT et AI dans les ressources suivantes :
- Apprenez à utiliser efficacement ChatGPT dans le cours Introduction à ChatGPT.
- Apprenez à créer vos propres modèles de génération de texte d’apprentissage profond dans le cours Natural Language Generation in Python.
- Téléchargez cette feuille de triche de référence pratique des invites ChatGPT pour la science des données.
- Écoutez cet épisode de podcast sur la façon dont ChatGPT et GPT-3 augmentez les flux de travail pour comprendre comment ChatGPT peut profiter à votre entreprise.