LLM — IT-Definition
Large Language Model: KI-Modell, das auf riesigen Textkorpora trainiert wurde und natürliche Sprache verstehen und erzeugen kann.
Ein LLM (Large Language Model, großes Sprachmodell) ist ein KI-Modell, das auf riesigen Textkorpora trainiert wurde, um natürliche Sprache zu verstehen und zu erzeugen. Es ist der grundlegende Baustein der durch ChatGPT im November 2022 ausgelösten GenAI-Revolution und das zugrundeliegende Triebwerk der meisten KI-Agenten im Unternehmen.
Moderne LLMs — GPT-4, Claude 4, Gemini 2, Llama 3, Mistral Large — zählen mehrere hundert Milliarden bis mehrere Billionen Parameter und werden auf hunderten von Milliarden Tokens trainiert.
Wie ein LLM funktioniert
Ein LLM basiert auf der Transformer-Architektur (2017 von Google eingeführt). Auf hoher Ebene:
- •Tokenisierung: Eingabetext wird in Tokens zerlegt (~3-4 Zeichen).
- •Embeddings: jedes Token wird in einen numerischen Vektor umgewandelt.
- •Attention: zentraler Mechanismus, der dem Modell ermöglicht, die Wichtigkeit jedes Tokens gegenüber den anderen zu gewichten.
- •Schichten: Stapel von Transformer-Blöcken (oft 80-120 in großen Modellen).
- •Vorhersage: bei jedem Schritt sagt das Modell die Wahrscheinlichkeitsverteilung des nächsten Tokens voraus.
- •Sampling: ein Token wird gemäß dieser Verteilung gezogen (Temperatur-Parameter).
Die großen LLM-Familien
- •Proprietäre Modelle: GPT-4/GPT-5 (OpenAI), Claude (Anthropic), Gemini (Google).
- •Open-weights-Modelle: Llama (Meta), Mistral, DeepSeek, Qwen.
- •Reasoning-Modelle: o1, o3 (OpenAI), Claude Sonnet/Opus mit Extended Thinking, Gemini Thinking.
- •Multimodale Modelle: (GPT-4o, Gemini 2 Flash, Claude 4).
- •Spezialisierte Modelle: Medizin (Med-PaLM), Code (Codex, Claude Code), Recht.
Lebenszyklus eines LLM
- •Pre-Training: auf einem massiven Korpus, Wochen Berechnung auf tausenden GPUs.
- •Fine-tuning: .
- •RLHF / RLAIF: .
- •Inferenz: Produktionseinsatz, pro Token abgerechnet.
Kosten und Grenzen
- •Inferenzkosten: pro Token.
- •Latenz: einige hundert ms bis mehrere Sekunden pro Antwort.
- •Begrenzter Kontext: 100k bis 2M Tokens je nach Modell. Darüber hinaus: RAG verwenden.
- •Knowledge cutoff: .
- •[Halluzinationen](/de/glossary/hallucination-ia): .
Nutzungsmuster im Unternehmen
- •Chat und Copilot: .
- •[RAG](/de/glossary/rag): .
- •[KI-Agenten](/de/glossary/agent-ia): .
- •Code-Generierung: Copilot, Cursor, Claude Code.
- •Extraktion und Strukturierung: .
- •Synthese und Zusammenfassung: .
Lokales LLM vs. Cloud-LLM
Drei Bereitstellungsoptionen:
- •Öffentliche API: (OpenAI, Anthropic, Google).
- •Private Cloud: Modelle bei einem Hyperscaler (AWS Bedrock, Azure OpenAI, Vertex AI) oder souverän.
- •Lokal / on-premise: Open-weights-Modelle.
Governance der LLMs im Unternehmen
- •Unternehmenslizenz: mit DPA.
- •[SSO](/de/glossary/sso): und Protokollierung der Konversationen.
- •Dokumentierte Nutzungsrichtlinie: .
- •Katalog der zugelassenen LLMs: .
- •Konformität mit [ISO 42001](/de/glossary/iso-42001): und EU AI Act.
Kabeen erkennt automatisch die im SI verwendeten LLMs und GenAI-Dienste.
Häufig gestellte Fragen
Was ist ein LLM?
+
Ein LLM (Large Language Model) ist ein KI-Modell, das auf riesigen Textkorpora trainiert wurde, um natürliche Sprache zu verstehen und zu erzeugen. Es ist der grundlegende Baustein der GenAI-Revolution, die durch ChatGPT im November 2022 ausgelöst wurde. Moderne LLMs (GPT-4, Claude, Gemini, Llama, Mistral) zählen mehrere hundert Milliarden bis mehrere Billionen Parameter.
Wie funktioniert ein LLM?
+
Ein LLM basiert auf der Transformer-Architektur und sagt bei jedem Schritt das nächste Token mit der höchsten Wahrscheinlichkeit aus dem Kontext voraus. Der Text wird tokenisiert, in Vektoren (Embeddings) umgewandelt und dann durch eine Stapelung von Attention-Schichten verarbeitet. Im Maßstab von hunderten Milliarden Parametern erzeugt diese einfache Vorhersage des nächsten Wortes durch Emergenz Fähigkeiten des Reasonings, der Übersetzung, des Codes und der Synthese.
Unterschied zwischen LLM, GenAI und KI-Agent?
+
GenAI ist die allgemeine Familie der generativen Modelle (Text, Bild, Audio, Video). Ein LLM ist ein spezifischer Typ von GenAI, der dem Text gewidmet ist. Ein KI-Agent ist ein Softwaresystem, das ein LLM als Reasoning-Engine nutzt, es mit Werkzeugen und einer Ausführungsschleife koppelt, um konkrete Aufgaben zu automatisieren. Die drei verschachteln sich: KI-Agent ⊃ LLM ⊂ GenAI.
Sollte man seine LLMs lokal oder in der Cloud bereitstellen?
+
Drei Optionen: öffentliche API (OpenAI, Anthropic, Google) — einfach und performant, aber Daten gehen hinaus; private Cloud (Azure OpenAI, Bedrock, Vertex AI, souveräne Cloud) — guter Kompromiss zwischen Isolation und Performance; lokale On-Premise-Bereitstellung von Open-weights-Modellen (Llama, Mistral, DeepSeek) — maximale Souveränität, aber geringere Performance als die besten geschlossenen Modelle. Die Wahl hängt von den verarbeiteten Daten, der geltenden Regulierung (DSGVO, Berufsgeheimnis) und dem Budget ab.
Alle Begriffe
5R-Methode
Eine Strategie bei der Anwendungsrationalisierung zur Bestimmung des besten Ansatzes für das Anwendungsmanagement.
8R-Methode
Eine erweiterte Version der 5R-Methode für Application Portfolio Management und Migrationsstrategien.
Anwendung
Ein Computerprogramm oder eine Reihe von Programmen zur Rationalisierung von Geschäftsabläufen.
Architektur
Bezieht sich auf die Struktur und das Verhalten von IT-Systemen, Prozessen und Infrastruktur innerhalb einer Organisation.
Brauchen Sie Hilfe bei der Kartierung Ihrer IT-Landschaft?
Kabeen hilft Ihnen, Ihr Anwendungsportfolio zu inventarisieren, zu analysieren und zu optimieren.