Modèles de fondation

Un modèle de fondation est entraîné sur un très grand volume de données pour apprendre à prédire la suite la plus probable d’un texte. Techniquement, cet apprentissage ajuste les poids d’un réseau de neurones, c’est-à-dire ses paramètres internes.

Cet entraînement coûte cher, mais le modèle obtenu peut ensuite être réutilisé à grande échelle pendant l’inférence.

Inférence

C’est la phase d’utilisation du modèle. On donne une entrée au modèle, et il génère une réponse à partir de ce qu’il a appris pendant l’entraînement.

Token

Un token est un morceau de texte découpé par le modèle avant traitement. Ce morceau peut être un mot, une partie de mot, un signe de ponctuation ou un caractère spécial. En anglais, 1 token correspond souvent à environ 0,75 mot, et en français à environ 0,5 mot.

Embedding

Un embedding est une représentation vectorielle d’un texte. Il permet de rapprocher des contenus qui se ressemblent par le sens, même s’ils n’utilisent pas exactement les mêmes mots.

Prompt

Le prompt est l’instruction ou la question donnée au modèle.

Contexte

Le modèle n’a pas de mémoire persistante : il est stateless. Le contexte est l’ensemble des données d’entrée utilisées pour générer la sortie. La fenêtre de contexte correspond à sa mémoire de travail du moment.

Dans ce contexte, on trouve par exemple le system prompt, l’historique de conversation et la demande utilisateur.

Hallucination

Une hallucination survient quand le modèle génère un contenu plausible, mais faux sur le plan factuel. Cela arrive parce qu’il prédit des suites de texte probables, pas parce qu’il vérifie systématiquement la vérité de ce qu’il dit.

Fine-tuning

Le fine-tuning consiste à réentraîner un modèle sur un dataset spécialisé pour ajuster son comportement. Cela permet de mieux l’aligner sur un domaine, un besoin métier ou une tâche spécifique.

RAG (Retrieval Augmented Generation)

Le RAG consiste à rechercher de l’information dans des documents ou une base de connaissances au moment de la question. Les informations retrouvées sont ajoutées au contexte pour aider le modèle à produire une meilleure réponse. Cela permet notamment d’utiliser des données plus à jour que celles présentes lors de l’entraînement du modèle.

Agent & Tool

Un agent IA ajoute une boucle d’action autour du modèle. La boucle classique ressemble à ceci : raisonner (thinking) -> agir (tools) -> observer -> continuer.

Les “tools”, ou le “function calling”, permettent au modèle d’utiliser des actions externes et déterministes. Par exemple : faire un calcul, lire un fichier ou appeler une API.

Température

La température contrôle le degré d’aléatoire de la sortie. Une température basse produit des réponses plus stables et plus déterministes. Une température haute produit des réponses plus variées, donc souvent perçues comme plus “créatives”.