Définition

LLM — Définition IT

Large Language Model : modèle d'intelligence artificielle entraîné sur d'immenses corpus de texte, capable de comprendre et générer du langage naturel.

Un LLM (Large Language Model, ou Grand Modèle de Langage) est un modèle d'intelligence artificielle entraîné sur d'immenses corpus textuels pour comprendre et générer du langage naturel. C'est la brique fondatrice de la révolution GenAI déclenchée par ChatGPT en novembre 2022, et le moteur sous-jacent de la majorité des agents IA en entreprise.

Les LLM modernes — GPT-4, Claude 4, Gemini 2, Llama 3, Mistral Large — comptent plusieurs centaines de milliards à plusieurs trillions de paramètres et sont entraînés sur des centaines de milliards de tokens (mots ou morceaux de mots). Leur capacité émerge des lois d'échelle : plus de données + plus de paramètres + plus de calcul = capacités qualitativement nouvelles (raisonnement, code, traduction).

Comment fonctionne un LLM

Un LLM repose sur l'architecture Transformer (introduite par Google en 2017, paper Attention Is All You Need). À très haut niveau :

•Tokenisation: : le texte d'entrée est découpé en tokens (~3-4 caractères chacun).
•Embeddings: : chaque token est converti en vecteur numérique.
•Attention: : le mécanisme central qui permet au modèle de pondérer l'importance de chaque token vis-à-vis des autres.
•Couches: : empilement de blocs Transformer (souvent 80-120 couches dans les grands modèles).
•Prédiction: : à chaque étape, le modèle prédit la distribution de probabilités du token suivant.
•Échantillonnage: : un token est tiré au sort selon cette distribution (paramètre temperature).

Cette prédiction du « mot suivant » à l'échelle de centaines de milliards de paramètres produit, par émergence, des capacités de raisonnement, de traduction, de code et de synthèse.

Les grandes familles de LLM

•Modèles propriétaires: : GPT-4/GPT-5 (OpenAI), Claude (Anthropic), Gemini (Google).
•Modèles open weights: : Llama (Meta), Mistral, DeepSeek, Qwen. Téléchargeables et déployables en local.
•Modèles raisonnement: : o1, o3 (OpenAI), Claude Sonnet/Opus avec extended thinking, Gemini thinking. Optimisés pour les tâches complexes par chaîne de pensée.
•Modèles multimodaux: : capables d'ingérer texte + image + audio + vidéo (GPT-4o, Gemini 2 Flash, Claude 4).
•Modèles spécialisés: : médecine (Med-PaLM), code (Codex, Claude Code), juridique.

Cycle de vie d'un LLM

•Pré-entraînement: : sur un corpus massif, des semaines de calcul sur des milliers de GPU. Coût : 50M$ à 1Md$ pour les plus grands modèles.
•Fine-tuning: : adaptation à un domaine ou un format de réponse.
•RLHF / RLAIF: : Reinforcement Learning from Human/AI Feedback pour aligner le modèle avec les préférences humaines.
•Inférence: : usage en production, facturé au token chez les éditeurs.

Coûts et limites

•Coût d'inférence: : facturé au token, de quelques cents à plusieurs dizaines de dollars par million de tokens selon le modèle.
•Latence: : de quelques centaines de ms à plusieurs secondes par réponse.
•Contexte limité: : fenêtre de 100k à 2M de tokens selon les modèles. Au-delà : utiliser RAG.
•Knowledge cutoff: : le modèle ignore les événements postérieurs à sa date d'entraînement.
•[Hallucinations](/fr/glossary/hallucination-ia): : production d'informations fausses présentées comme vraies.

Patterns d'usage en entreprise

•Chat et copilote: : assistant conversationnel pour les collaborateurs.
•[RAG](/fr/glossary/rag): : ancrage du LLM sur des documents internes pour réduire les hallucinations.
•[Agents IA](/fr/glossary/agent-ia): : LLM + outils + boucle d'exécution pour automatiser des tâches.
•Génération de code: : Copilot, Cursor, Claude Code pour les équipes ingé.
•Extraction et structuration: : parser un document, extraire des entités, classifier.
•Synthèse et résumé: : condenser des documents, des réunions, des conversations.

LLM local vs LLM cloud

Trois options de déploiement :

•API publique: (OpenAI, Anthropic, Google) : simple, performant, mais les données quittent l'entreprise.
•Cloud privé: : modèles hébergés chez un hyperscaler (AWS Bedrock, Azure OpenAI, Vertex AI) ou en SecNumCloud / souverain.
•Local / on-premise: : modèles open weights (Llama, Mistral) déployés sur infrastructure interne. Souveraineté maximale, performance moindre que les meilleurs modèles fermés.

Le choix dépend des données traitées, des exigences réglementaires (RGPD, secret professionnel, défense) et du budget.

Gouvernance des LLM en entreprise

Sans cadre, l'usage des LLM bascule en Shadow IA. Les bonnes pratiques :

•Licence entreprise: avec DPA (non-réutilisation des prompts pour l'entraînement).
•[SSO](/fr/glossary/sso): et journalisation des conversations.
•Politique d'usage: documentée et formations.
•Catalogue des LLM autorisés: et gestion des accès.
•Conformité [ISO 42001](/fr/glossary/iso-42001): et AI Act.

Kabeen détecte automatiquement les LLM et services GenAI utilisés dans le SI — pour donner à la DSI une visibilité immédiate sur le périmètre réel à gouverner.

Questions fréquentes

Qu'est-ce qu'un LLM ?

Un LLM (Large Language Model) est un modèle d'intelligence artificielle entraîné sur d'immenses corpus de texte pour comprendre et générer du langage naturel. C'est la brique fondatrice de la révolution GenAI déclenchée par ChatGPT en novembre 2022. Les LLM modernes (GPT-4, Claude, Gemini, Llama, Mistral) comptent plusieurs centaines de milliards à plusieurs trillions de paramètres.

Comment fonctionne un LLM ?

Un LLM repose sur l'architecture Transformer et prédit, à chaque étape, le token suivant le plus probable d'après le contexte. Le texte est tokenisé, converti en vecteurs (embeddings), puis traité par un empilement de couches d'attention. À l'échelle de centaines de milliards de paramètres, cette simple prédiction du mot suivant fait émerger des capacités de raisonnement, traduction, code et synthèse.

Quelle différence entre un LLM, la GenAI et un agent IA ?

La GenAI est la famille générale des modèles génératifs (texte, image, audio, vidéo). Un LLM est un type spécifique de GenAI dédié au texte. Un agent IA est un système logiciel qui utilise un LLM comme moteur de raisonnement, le couple à des outils et une boucle d'exécution pour automatiser des tâches concrètes. Les trois s'emboîtent : agent IA ⊃ LLM ⊂ GenAI.

Doit-on déployer ses LLM en local ou en cloud ?

Trois options : API publique (OpenAI, Anthropic, Google) — simple et performante mais les données sortent ; cloud privé (Azure OpenAI, Bedrock, Vertex AI, SecNumCloud) — bon compromis isolement / performance ; déploiement local on-premise de modèles open weights (Llama, Mistral, DeepSeek) — souveraineté maximale mais performance moindre. Le choix dépend des données traitées, de la réglementation applicable (RGPD, secret professionnel) et du budget.

Besoin d'aide pour cartographier votre SI ?

Kabeen vous aide à inventorier, analyser et optimiser votre portefeuille d'applications.

Essayer gratuitement