Zurück zum Glossar
L
Definition

LLM IT-Definition

Large Language Model: KI-Modell, das auf riesigen Textkorpora trainiert wurde und natürliche Sprache verstehen und erzeugen kann.

Ein LLM (Large Language Model, großes Sprachmodell) ist ein KI-Modell, das auf riesigen Textkorpora trainiert wurde, um natürliche Sprache zu verstehen und zu erzeugen. Es ist der grundlegende Baustein der durch ChatGPT im November 2022 ausgelösten GenAI-Revolution und das zugrundeliegende Triebwerk der meisten KI-Agenten im Unternehmen.

Moderne LLMs — GPT-4, Claude 4, Gemini 2, Llama 3, Mistral Large — zählen mehrere hundert Milliarden bis mehrere Billionen Parameter und werden auf hunderten von Milliarden Tokens trainiert.

Wie ein LLM funktioniert

Ein LLM basiert auf der Transformer-Architektur (2017 von Google eingeführt). Auf hoher Ebene:

  • Tokenisierung: Eingabetext wird in Tokens zerlegt (~3-4 Zeichen).
  • Embeddings: jedes Token wird in einen numerischen Vektor umgewandelt.
  • Attention: zentraler Mechanismus, der dem Modell ermöglicht, die Wichtigkeit jedes Tokens gegenüber den anderen zu gewichten.
  • Schichten: Stapel von Transformer-Blöcken (oft 80-120 in großen Modellen).
  • Vorhersage: bei jedem Schritt sagt das Modell die Wahrscheinlichkeitsverteilung des nächsten Tokens voraus.
  • Sampling: ein Token wird gemäß dieser Verteilung gezogen (Temperatur-Parameter).

Die großen LLM-Familien

  • Proprietäre Modelle: GPT-4/GPT-5 (OpenAI), Claude (Anthropic), Gemini (Google).
  • Open-weights-Modelle: Llama (Meta), Mistral, DeepSeek, Qwen.
  • Reasoning-Modelle: o1, o3 (OpenAI), Claude Sonnet/Opus mit Extended Thinking, Gemini Thinking.
  • Multimodale Modelle: (GPT-4o, Gemini 2 Flash, Claude 4).
  • Spezialisierte Modelle: Medizin (Med-PaLM), Code (Codex, Claude Code), Recht.

Lebenszyklus eines LLM

  • Pre-Training: auf einem massiven Korpus, Wochen Berechnung auf tausenden GPUs.
  • Fine-tuning: .
  • RLHF / RLAIF: .
  • Inferenz: Produktionseinsatz, pro Token abgerechnet.

Kosten und Grenzen

  • Inferenzkosten: pro Token.
  • Latenz: einige hundert ms bis mehrere Sekunden pro Antwort.
  • Begrenzter Kontext: 100k bis 2M Tokens je nach Modell. Darüber hinaus: RAG verwenden.
  • Knowledge cutoff: .
  • [Halluzinationen](/de/glossary/hallucination-ia): .

Nutzungsmuster im Unternehmen

  • Chat und Copilot: .
  • [RAG](/de/glossary/rag): .
  • [KI-Agenten](/de/glossary/agent-ia): .
  • Code-Generierung: Copilot, Cursor, Claude Code.
  • Extraktion und Strukturierung: .
  • Synthese und Zusammenfassung: .

Lokales LLM vs. Cloud-LLM

Drei Bereitstellungsoptionen:

  • Öffentliche API: (OpenAI, Anthropic, Google).
  • Private Cloud: Modelle bei einem Hyperscaler (AWS Bedrock, Azure OpenAI, Vertex AI) oder souverän.
  • Lokal / on-premise: Open-weights-Modelle.

Governance der LLMs im Unternehmen

  • Unternehmenslizenz: mit DPA.
  • [SSO](/de/glossary/sso): und Protokollierung der Konversationen.
  • Dokumentierte Nutzungsrichtlinie: .
  • Katalog der zugelassenen LLMs: .
  • Konformität mit [ISO 42001](/de/glossary/iso-42001): und EU AI Act.

Kabeen erkennt automatisch die im SI verwendeten LLMs und GenAI-Dienste.

Häufig gestellte Fragen

Was ist ein LLM?

+

Ein LLM (Large Language Model) ist ein KI-Modell, das auf riesigen Textkorpora trainiert wurde, um natürliche Sprache zu verstehen und zu erzeugen. Es ist der grundlegende Baustein der GenAI-Revolution, die durch ChatGPT im November 2022 ausgelöst wurde. Moderne LLMs (GPT-4, Claude, Gemini, Llama, Mistral) zählen mehrere hundert Milliarden bis mehrere Billionen Parameter.

Wie funktioniert ein LLM?

+

Ein LLM basiert auf der Transformer-Architektur und sagt bei jedem Schritt das nächste Token mit der höchsten Wahrscheinlichkeit aus dem Kontext voraus. Der Text wird tokenisiert, in Vektoren (Embeddings) umgewandelt und dann durch eine Stapelung von Attention-Schichten verarbeitet. Im Maßstab von hunderten Milliarden Parametern erzeugt diese einfache Vorhersage des nächsten Wortes durch Emergenz Fähigkeiten des Reasonings, der Übersetzung, des Codes und der Synthese.

Unterschied zwischen LLM, GenAI und KI-Agent?

+

GenAI ist die allgemeine Familie der generativen Modelle (Text, Bild, Audio, Video). Ein LLM ist ein spezifischer Typ von GenAI, der dem Text gewidmet ist. Ein KI-Agent ist ein Softwaresystem, das ein LLM als Reasoning-Engine nutzt, es mit Werkzeugen und einer Ausführungsschleife koppelt, um konkrete Aufgaben zu automatisieren. Die drei verschachteln sich: KI-Agent ⊃ LLM ⊂ GenAI.

Sollte man seine LLMs lokal oder in der Cloud bereitstellen?

+

Drei Optionen: öffentliche API (OpenAI, Anthropic, Google) — einfach und performant, aber Daten gehen hinaus; private Cloud (Azure OpenAI, Bedrock, Vertex AI, souveräne Cloud) — guter Kompromiss zwischen Isolation und Performance; lokale On-Premise-Bereitstellung von Open-weights-Modellen (Llama, Mistral, DeepSeek) — maximale Souveränität, aber geringere Performance als die besten geschlossenen Modelle. Die Wahl hängt von den verarbeiteten Daten, der geltenden Regulierung (DSGVO, Berufsgeheimnis) und dem Budget ab.

Brauchen Sie Hilfe bei der Kartierung Ihrer IT-Landschaft?

Kabeen hilft Ihnen, Ihr Anwendungsportfolio zu inventarisieren, zu analysieren und zu optimieren.

Kostenlos testen