L'intelligence artificielle : clarifications et fonctionnement des modèles de langage

Lorsqu’on parle d’intelligence artificielle, on constate qu’une grande partie de l’opinion publique la regarde encore avec beaucoup de méfiance. Même parmi les journalistes, écrivains et observateurs, on trouve souvent des commentaires déplacés, résultant d’une connaissance insuffisante du sujet.

Derrière le fonctionnement apparemment « magique » des chatbots comme ChatGPT et ses « associés » (tels que Gemini, Copilot, Claude, Perplexity, DeepSeek, etc.), il existe toute une structure qui repose sur des concepts liés aux mathématiques et à la statistique.

Andrej Karpathy et son apport à l’IA

Andrej Karpathy, éminent informaticien slovaquo-canadien né en 1986, est connu pour ses contributions significatives dans le domaine de l’intelligence artificielle et du deep learning. Nous l’avons souvent cité dans nos articles et le faisons encore aujourd’hui pour mentionner son travail Deep Dive into LLMs like ChatGPT, une vidéo publiée sur YouTube qui révèle une grande partie du fonctionnement de ChatGPT et des Large Language Models (LLM).

Karpathy a été l’un des fondateurs d’OpenAI, où il a travaillé comme chercheur de 2015 à 2017. Il a ensuite dirigé les projets d’intelligence artificielle et Autopilot Vision chez Tesla. En juillet 2024, après un bref retour chez OpenAI entre 2023 et 2024, il a fondé Eureka Labs, une entreprise spécialisée dans l’enseignement de l’intelligence artificielle à travers des cours innovants.

Différences entre intelligence artificielle, modèles génératifs et LLM

Commençons par préciser que l’intelligence artificielle (IA) et les modèles génératifs, comme les Large Language Models (LLM), ne sont pas la même chose, bien que ces concepts soient étroitement liés.

L’IA est un domaine très vaste qui comprend une variété de techniques et d’algorithmes conçus pour permettre aux machines d’effectuer des tâches associées à l’intelligence humaine, comme le raisonnement, l’apprentissage et la résolution de problèmes. Parmi les solutions d’IA, on distingue :

L’IA prédictive, qui se concentre sur la prévision d’événements futurs.
L’IA générative, dédiée à la création de nouveaux contenus.

Les modèles génératifs sont une sous-catégorie de l’IA : ils servent à générer de nouvelles données similaires à celles sur lesquelles ils ont été entraînés. Leur fonction principale est d’imiter la distribution des données existantes pour produire des sorties originales.

Les LLM (Large Language Models) sont un type spécifique de modèle génératif basé sur des transformers. Ils sont conçus pour traiter et générer du texte de manière cohérente et efficace. Ils sont utilisés pour des tâches telles que la traduction automatique, la réponse aux questions et la création de texte original.

Les LLM, en français modèles linguistiques de grande taille, ont révolutionné l’intelligence artificielle appliquée au langage naturel, permettant une compréhension et une génération avancées de texte. Leur fonctionnement repose sur des techniques complexes comme :

Le pré-entraînement
La tokenisation
L’architecture neuronale
L’inférence
Le post-entraînement

Après avoir clarifié ces distinctions, examinons 10 aspects techniques du fonctionnement de ChatGPT et des chatbots similaires que vous ne connaissez peut-être pas.

1. Le pré-entraînement : la base des connaissances des modèles

Le pré-entraînement d’un LLM s’effectue sur d’immenses quantités de données collectées sur le Web. Ce corpus comprend des textes provenant de livres, d’articles, de pages web, de documents techniques et de conversations publiques. La qualité et la diversité des données influencent directement la capacité du modèle à « comprendre » et générer du texte de manière cohérente.

Une des principales difficultés du pré-entraînement est la sélection et la purification des données : il est essentiel que le modèle apprenne à partir de sources fiables pour éviter la propagation d’informations erronées ou non éthiques.

À ce sujet, le projet FineWeb de Hugging Face contient plus de 15 trillions de tokens, après un processus de nettoyage et de déduplication garantissant une meilleure qualité des données.

2. Le rôle des réseaux neuronaux

Les réseaux neuronaux sont des structures mathématiques imitant, de manière simplifiée, les fonctions des neurones biologiques. Contrairement à ces derniers, qui sont des processus dynamiques complexes avec mémoire, les réseaux neuronaux artificiels sont des expressions mathématiques fixes.

Ces réseaux sont composés de couches de calcul, qui transforment les entrées en sorties à l’aide d’opérations telles que :

Multiplications matricielles
Fonctions d’activation non linéaires (introduisant des non-linéarités dans le modèle)

Les modèles génératifs utilisent ces réseaux pour apprendre des modèles statistiques dans les flux de texte.

3. La tokenisation : le pont entre texte et nombres

La tokenisation est le processus qui transforme le texte en séquences de tokens (unités numériques interprétables par le réseau neuronal).

Différentes méthodes existent :

Tokenisation par caractère (peu efficace)
Byte Pair Encoding (BPE) (combine les séquences fréquentes en un seul token)
Tokenisation basée sur UTF-8, utilisée par OpenAI

Un problème fréquent est la gestion des langues autres que l’anglais, car les modèles sont souvent biaisés vers les langues les plus courantes dans leurs ensembles de données d’entraînement.

4. Le flux de données dans un LLM

L’entrée d’un LLM est une séquence de tokens, transformée en vecteurs numériques à l’aide d’une table d’embedding. Ces vecteurs sont ensuite traités par plusieurs couches de réseau neuronal, exploitant des mécanismes tels que :

L’attention (pour peser l’importance des mots précédents dans un contexte)
Les transformations non linéaires (pour améliorer la compréhension)

L’output du modèle est une distribution de probabilité sur les tokens possibles suivants.

5. Fonctionnement interne des réseaux de neurone

Les LLM utilisent l’architecture Transformer, qui exploite :

Des mécanismes d’auto-attention (pour donner un poids différent aux mots selon leur importance contextuelle)
Des couches de normalisation (pour stabiliser l’apprentissage)

6. L’inférence : la génération du texte

L’inférence est le processus par lequel un LLM génère du texte en réponse à une entrée. Pour l’optimiser, on utilise :

La quantisation (réduction de la précision des calculs)
Les GPU et TPU (matériel spécialisé pour accélérer l’inférence)
Le caching d’attention (évite les recalculs inutiles)

7. Évolutions et limites des LLM

Les LLM, de GPT-2 à Llama 3.1, ont évolué pour améliorer la gestion du contexte, réduire les hallucinations et accroître l’efficacité énergétique. Les défis à venir incluent :

L’intégration avec la vision artificielle
Le développement de cadres éthiques solides
L’amélioration de la compréhension du contexte à long terme

L’IA générative continuera d’évoluer, mais elle devra être encadrée avec responsabilité pour garantir une utilisation éthique et bénéfique pour la société.