Large Language Model (LLM) Spezialisten finden – Festangestellte und Freelancer

Secure Staffing.

Mit SECUSTAFF die besten Large Language Model (LLM) Experten finden

Wenn Sie auf der Suche nach einem Large Language Model Spezialisten sind, dann sind Sie bei uns richtig. Ganz gleich ob Sie Mitarbeiter für eine unbefristete Festanstellung oder Freelancer für Ihr IT Projekt suchen.

Sie sind auf der Suche nach einem Large Language Model (LLM) Spezialisten? Senden Sie uns Ihre Position einfach und unverbindlich per E-Mail.

E-Mail senden

Das Wichtigste zum Thema Large Language Model (LLM)

Wir wissen nicht alles, aber wir wissen, wo wir es finden. Wenn Sie auch noch etwas zum Thema Large Language Model wissen möchten, finden Sie hier sicherlich die Antwort. Und falls Sie einen Experten benötigen, der all dieses Wissen bereits aufgebaut und erfolgreich in der Praxis eingesetzt hat, dann sprechen Sie uns an, wir finden für Sie die besten verfügbaren Large Language Model Fachkräfte, egal ob Sie einen Freelancer für einen Tag benötigen oder einen Mitarbeiter für eine dauerhafte Festanstellung. Wir stehen für Secure Staffing.

Large Language Model

Ein Large Language Model, kurz LLM (englisch, teilweise übertragen großes Sprachmodell), ist die Software-technische Realisierung eines mathematischen Sprachmodells, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet.[1][2] Es handelt sich um ein sogenanntes computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat und diese Fähigkeiten seinem Benutzer oder in einer anderen Anwendung zur Verfügung stellt.[3]

Der Trainingsprozess der Modelle lässt sich dabei grob in drei Phasen unterteilen: 1. Datenerfassung, 2. Modelltraining und 3. Feinabstimmung. Anschließend wird das trainierte Modell mittels Inferenz abgefragt.

LLMs sind eine Reihe moderner Techniken (Algorithmen und andere Softwareartefakte) im Bereich künstlicher Intelligenz (KI), die seit etwa Mitte der 2010er Jahre existieren und vorwiegend über Cloud Computing bereitgestellt werden. Einige Softwarelösungen erlauben jedoch auch die lokale Ausführung von LLM-Modellen. LLMs sind auch als Foundation Models[4][2], also Grundmodelle, einer komplexeren KI-Softwarearchitektur bekannt. Sie sind prägendes Merkmal der KI-Ära. LLMs sind Teil des Deep Learning (DL).

Beschreibung

Große Sprachmodelle erlangen ihre Fähigkeiten durch die Verwendung großer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Sie sind im weiteren Sinne künstliche neuronale Netze (NN) und werden entweder durch selbstüberwachtes Lernen (a priori) oder halbüberwachte Lernmethoden trainiert.

Für diese künstlichen neuronalen Netze werden seit etwa dem Jahr 2018 sogenannte „Transformer“-Architekturen als Kern des Modells gewählt. Bekanntheit haben dabei die Generative Pretrained Transformer (GPT) Modelle, sowie das Modell Bidirectional Encoder Representations from Transformers (BERT) erlangt. Diese Modelle sind LLMs. BERT wurde von 2018 Google veröffentlicht.[5] Wenig später wurde „XLNet“ zur Verbesserung von BERT publiziert.[6]

Große Sprachmodelle arbeiten als „selbstanpassende Sprachmodelle“, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.[7][8]

Nach Stephen Wolfram ist die Mechanik eines LLMs etwa wie folgt[9]: „Es fügt einfach ein Wort nach dem anderen hinzu.“ Es wird ein „Token“ hinzugefügt, das beispielsweise nur ein Wortteil sein kann. Daher kann es vorkommen, dass neue Wörter gebildet werden. Das Programm kann „Sätze“ generieren, in denen jedes Wort unabhängig und zufällig mit der gleichen Wahrscheinlichkeit ausgewählt wird, mit der es im Korpus vorkommt. Laut Wolfram ist die Grundidee, ein Modell zu entwickeln, mit dem man die Wahrscheinlichkeiten für das Auftreten von Sequenzen schätzen könne, auch wenn man diese Sequenzen im untersuchten Textkorpus nie explizit gesehen habe. Er meint, es werden einfach Dinge gesagt, die sich „richtig anhören“, basierend darauf, wie sie im Trainingsmaterial „klangen“. Laut Wolfram sei das Ganze auf einer übergeordneten Ebene noch nicht ganz klar.[9]

Bis etwa 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der sogenannten Feinabstimmung.[10] Größere LLM-Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe des sogenannten „Prompt Engineering“ ähnliche Ergebnisse erzielen können.[11][12] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[13]

Entstehung und Entwicklung

Vorläufer

Den modernen LLMs gingen verschiedene Entwicklungsstufen voraus.[14][15][2] Sie beruhen auf der Verarbeitung natürlicher Sprache.[16] Dazu zählen die statistische Zerlegung eines Textes in Fragmente, auch bekannt als N-Gramm-Analyse.

Ab den 2010er Jahren haben künstliche neuronale Netzwerke (NN) diese Fähigkeiten vertieft und erweitert. Für das „generative Lernen“ bzw. unüberwachte Lernen wurden ab 2014 die Generative Adversarial Networks (GANs) vorgestellt.[17] Die Semi-supervised Sequence Learning-Technik, ein Trainingsalgorithmus aus dem Jahr 2015, verbessert beispielsweise das Modelltraining durch die Nutzung sowohl markierter als auch unmarkierter Daten.[18] Im Jahr 2016 erreichte AlphaGo eine neue Leistungsgrenze „künstlicher Intelligenz“ gegen den Go-Spieler Lee Sedol. Es basierte u. a. auf der Technik und Algorithmik der Convolutional Neural Network (CNN) und Monte Carlo Tree Search (MCTS). Letzteres ist eine Verbesserung der Minimax-Methode.

Evolution der LLMs

Blockschema der Encoder-Decoder-Architektur, der Original Transformer-Architektur von 2017.[19][20] Der Output des Encoders wird zum Input für den Decoder. Dieser Transformer verzichtet auf RNNs und CNNs. Einige GPT-Modelle von OpenAI unterscheiden jedoch explizit dadurch, dass sie nur einen Decoder und spezielle Selbst-Aufmerksamkeitsmechanismen verwenden. Sie verzichten auf den Encoder.[21][22] Das Modell BERT basiert hingegen auf einer Encoder-Architektur.

Diese Entwicklungen wurden wiederum durch die Inhalte der Preprint-Publikation „Attention is All You Need“[20][19] (Aufmerksamkeit ist alles, was du brauchst), vorgestellt auf der Conference on Neural Information Processing Systems 2017 durch ein Google-Forscherteam, entscheidend geprägt.[23] Ein Ziel dieser Veröffentlichung war es, die sogenannte „Sequence-to-Sequence“ oder „Seq2seq“-Technik[24] (auch bekannt als „Encoder-Decoder-Architektur“[25]) zu verbessern.[26] Die Veröffentlichung führte einen sogenannten „englisch attention mechanism Aufmerksamkeitsmechanismus“ ein.[22][26][21][20.1] Die Google-Arbeit stellte somit eine neue Transformer-Technik vor.[27][28][22][29] Die ersten Forschungen zu diesen Algorithmen gehen jedoch bis in die 1990er Jahre unter Jürgen Schmidhuber zurück.[30][31][32] Mit Googles Variante war ab 2017 ein neuer Stand des (bisherigen) maschinellen Lernens (ML) oder genauer Deep Learnings (DL) für die Sprachverarbeitung (LLMs) erreicht worden. Google Research verweist dabei auf die Tensor2Tensor (T2T)-Programmbibliothek (archiviert 2023), welche ML/DL verbessert und verschiedene Transformer anbietet.[33][34][35]

Transformer ermöglichen eine genauere und umfassendere Verarbeitung und Analyse von Textinformationen. Letztere sind sequenzielle Daten, die Transformer für Aufgaben wie Spracherzeugung und Übersetzung verstehen und erzeugen können. Sie sind ein neuronales Netzwerk, das Kontext und somit Bedeutung lernt, indem es die Beziehungen zwischen den Wörtern in einem Satz analysiert.[36]

Im Jahr 2018, kurz nach der Veröffentlichung der Transformer-Technik[20], wurden das Modell Bidirectional Encoder Representations from Transformers (BERT) von Google AI vorgestellt.[37][38] Obwohl der ursprüngliche Transformer sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.[39]

Die Entwicklungsabteilung von OpenAI arbeitete ebenfalls seit 2015 an einem neuen Modell. Das LLM-Modell GPT-1 wurde im Jahr 2018 jedoch als reines Decoder-Modell eingeführt. Die GPT- und BERT-Modelle wurden auf der DatenbasisBookCorpus[40] trainiert.[37][41] Dieser Datensatz bzw. Textkorpus enthält 7.000 selbstpublizierte Bücher und etwas unter einer Milliarde Wörter.[42] Auch Google hat 2016 eine Vielzahl an Büchern für das Training seiner LLM verwendet.[43] Forscher aus den Bereichen Industrie und Robotik versuchen hingegen, physikalische Umgebungsdaten zu erlernen und ihre Modelle entsprechend zu trainieren.[44]

Das Modell GPT-2 wurde schließlich im Frühjahr 2019 veröffentlicht.[45] Laut OpenAI wurde zunächst ein kleineres Modell veröffentlicht, da die Entwickler sich wie folgt äußerten: „Große, allgemeine Sprachmodelle könnten bedeutende gesellschaftliche Auswirkungen haben und bieten zudem zahlreiche kurzfristige Anwendungsmöglichkeiten.“[45] Sie verwiesen auf eine Vielzahl möglicher böswilliger Zwecke, die mit diesen Modellen verfolgt werden können, beispielsweise Deepfakes oder irreführende Nachrichtenartikel. Die Veröffentlichung der LLMs wird teilweise von einer Richtlinie (Policy) im Sinne einer Regulierung begleitet.[4]

GPT-2 wurde grundsätzlich so trainiert, dass es das nächste Wort in 40 GB Internettext (Daten) vorhersagen kann, d. h. wenn alle vorherigen Wörter gegeben sind. Es ist ein Sprachmodell mit 1,5 Milliarden Parametern, das mit einem Datensatz von 8 Millionen Webseiten trainiert wurden und auf Transformer-Technik basiert.[45] Die GPT-2 Entwicklung wurde mittlerweile eingestellt und steht unter einer modifizierten MIT-Lizenz.[46] Die Forschungsergebnisse wurden 2019 publiziert.[47]

GPT-3 aus dem Jahr 2020 war die nächste Entwicklungsstufe. Bis zu dem Modell GPT-3.5 waren alle OpenAI GPT-Modelle nur per Programmierschnittstelle (API) zu nutzen, was sich ab Ende 2022 änderte, als die webbasierte-Schnittstelle ChatGPT veröffentlicht wurde.[48][49]

2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.[50] Die genaue Softwarearchitektur und weitere Details des Modells wurden jedoch nicht öffentlich bekannt gegeben.

Seit dieser Zeit haben konkurrierende Sprachmodelle hinsichtlich der Anzahl der Parameter größtenteils mit der GPT-Serie gleichgezogen.[51] Beispielsweise übertraf im Jahr 2024 das Modell Googles Gemini Pro das GPT-4,[52] was die Elo-Bewertung betrifft. Letztere wird im Umfeld von LLM zum Benchmarking verwendet.

Das Git-Repository von BERT wurde Ende 2025 archiviert (Entwicklung eingefroren oder gestoppt).[53] Eine Weiterentwicklung von BERT durch Facebook AI ist bekannt geworden als RoBERTa (Robustly Optimized BERT Pretraining Approach).[54]

Die modernsten Modelle (sowohl algorithmisch, als auch softwarearchitektonisch) werden als „Frontier Modelle“ bezeichnet. Diese Modelle weisen beispielsweise eine Mixture-of-Experts (MoE)-Architektur und weitere algorithmische Bausteine einer komplexen LLM-Architektur auf.[55][56] Das MoE-Konzept geht auf Arbeiten aus den 1990er Jahren zurück und fand ihre Nutzung als Teil von ML/DL.[57][58][59][60]

Die Technik der Transformer ist nach wie vor Teil der Forschung (und gegebenenfalls Entwicklung).[29][61]

Umsetzungen und LLM-Hersteller

Beispiele für LLM-Software oder -Services oder -Apps sind Mistral AI, ChatGPT, Ernie Bot und Grok. Die Services sind dabei wie ein Chat aufgebaut, der mit seinem Benutzer kommuniziert, auch bekannt als Chatbot. Viele LLM-Hersteller (Unternehmen) sind Teil der modernen Digital Economy und versuchen, die LLM-Modelle zu monetarisieren. Zu den Anbietern von LLMs zählen unter anderem (Beispiele)[62]:

LLM-Hersteller/Unternehmen/Investor[63][2]
FirmaLandModell(e)[64]Weiteres
OpenAIUSAGPT, nach dem Fachbegriff Generativer vortrainierter TransformerVerwendung in z. B. Microsoft Copilot
Google/AlphabetUSAGemini, Gemma und weitere Varianten
Google AIUSALanguage Model for Dialogue Applications (LaMDA)Ein auf Dialoge (Audio) trainiertes Modell
Meta/FacebookUSAVerschiedene LLaMA-Sprachmodelle[65]Open-Source-Software (OSS)
AnthropicUSAClaude
xAIUSAGrok[66]
OpenAIUSASoraText-zu-Video-Generator
AlibabaVR ChinaQwen
DeepSeekVR ChinaDeepSeek
01.AIVR ChinaUnbekanntVenture, Kai-Fu Lee
Z.aiVR ChinaGLMVgl. Chinas KI-Branche
DeepLDeutschlandVerschiedene ServicesFrüher Convolutional Neural Network (CNN), dann Transformer
Aleph AlphaDeutschlandPharia, Luminous
Mistral AIFrankreichVerschiedene Modelle, MistralGeneratives KI-Modell
Übersicht einiger bekannter LLMs und Eigenschaften (Beispiele). Siehe auch[67](Leere Zellen sind unbekannt oder wurden nicht weiter recherchiert.)
LLMVeröffentlichung[68]Parameter[69]ModellgrößeTokens (Kontextlänge)[70][71]Mixture-of-ExpertsModalitätDatensatz/Training/WissenMMLULizenzWeiteres
GPT-3[72]29. Mai 2020175Mkleinetwa 4kText2019Unbekannt
GPT-4[72]14. März 2023nicht bekanntgeben, klein; geschätzt etwa 300M[73]riesig~128k[74]Multimodal (Text, Bilder usw.)Ende 20230.89
Grok-1November 2023314Mriesig~131kMultimodalOktober 2023[75]Unbekannt (0.875 = Grok-2)
Claude Sonnet 422. Mai 2025keine Angaben (Sonnet 3 etwa 70M[76])riesig~1MegMultimodalJuli 2025 (Sonnet 4.5)[77]Unbekannt (0.904 = Sonnet 3.5)
GPT-5[72]7. August 2025nicht bekanntgegeben, geschätzt 2 bis 5B[73]gigantisch~400k[78]Multimodal20240.925[79]
GPT-OSS[80][81]5. August 2025120M/20Mriesig128kxTextDie 20M Variante benötigt c. 32 GB RAM zum lokalen ausführen[82]
Claude Haiku 4.5[83]15. Oktober 2025keine Angaben (Haiku 3 etwa 20M[76])riesig~200kMultimodalJuli 2025[84]Unbekannt
DeepSeek-R1[85][86]27. Juni 2025671M, davon 37B „aktivierte Parameter“, plus kleinere „destillierte“ Modelleriesig~33kxText~0.9MIT[87]Wendet Reinforcement Learning (RL) auf Basismodell an; die Architektur geht auf die Variante V3 zurück[88]
LLM-Jargon (siehe auch das Glossar):
  • Ein Token ist eine Zeichenkette mit semantischer Bedeutung für ein Modell. Tokenisierung ist der Prozess, bei dem die Wörter Ihrer Eingabeaufforderung in Tokens umgewandelt werden.[89]
  • Das Kontextfenster oder Kontextlänge eines LLM ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Je größer das Kontextfenster, desto mehr Eingaben oder Informationen können von einem Modell verarbeitet und auch Ausgegeben werden.[90]
  • Parameter oder Modellparameter sind eine Abbildung von Eingabedaten auf Ausgabedaten. Ein Modell versucht die Parameter so lange zu optimieren, bis das Ergebnis durch die KI dem erwarteten Ergebnis entspricht.[91]

LLM-Infrastruktur

IT, Rechenzentren und Energiebedarf

Das Training von LLMs benötigt extrem viele Rechenressourcen (speziell Speicher, siehe unter Hardware). Schätzungsweise benötigte das Training des GPT-4-Modells von OpenAI rund 50 GWh Energie (Strom) und kostete etwa 100 Millionen US-Dollar. Dies entspricht dem Stromverbrauch von San Francisco über drei Tage.[92] Für diese neuen Größenordnungen in der IT-Welt werden seit den 2020er Jahren eigens entwickelte und für KI oder LLMs optimierte Rechenzentren aufgebaut.[45][93][94] Schon heute werden rund 4,4 Prozent des gesamten Stromverbrauchs in den USA für Rechen- oder Datenzentren aufgewendet. Schätzungen zufolge wird sich diese Zahl drastisch erhöhen. Das Lawrence Berkeley National Laboratory (LBL) schätzt, dass bis 2028 mehr als die Hälfte des Stroms in Datenzentren für KI-Modelle verwendet wird. Zu diesem Zeitpunkt könnte KI allein so viel Strom verbrauchen wie 22 % aller US-Haushalte jährlich.[92][95] In den USA wurde 2025 das Stargate-Projekt angekündigt, eine Initiative für KI-optimierte Rechenzentren der Administration Trump II. Des Weiteren wurde die Pax-Silica-Initiative angekündigt, um die Lieferketten bei Halbleiterprodukten zu beeinflussen und sicherzustellen.

Im Rahmen eines Projekts untersuchen Fachleute den Stromverbrauch der LLMs und sammeln die Ergebnisse in einer Datenbank namens ML.ENERGY Benchmark.[96][97] Ein weiteres Teilprojekt von ML.ENERGY namens „Zeus“ versucht, den Energieverbrauch von Deep Learning (DL)-Applikationen (Modellen) zu messen und zu optimieren.[98]

Hardware

Für LLMs kommen nur modernste Prozessorgeneration bzw. spezialisierte Mehrkernprozessoren zum Einsatz. Im speziellen sind die „KI-Beschleuniger“ gemeint. Aufgrund der parallelen Abläufe und Datenzugriffe bei Convolutional Neural Networks (CNN) haben sich Grafikprozessoren (in Form von Grafik- oder spezialisierten Prozessorkarten), die besonders gut für Fließkommaoperationen (vgl. IEEE 754) geeignet sind, als geeignete erwiesen. Um die Modelle und deren Speicheranforderungen zu optimieren („Quantisierung“), geht man von 32-, zu 16-, 8- und mittlerweile zu kleinen 4-Bit Fließkommazahlen über.[99][100]

LLMs stellen enorm hohe Anforderungen an den Bedarf an die Computerressourcen, speziell den Grafikprozessor und den Grafikspeicher (VRAM, genauer: High Bandwidth Memory (HBM)). Der Speicherbedarf M in GB lässt sich grob abschätzen[101][102][103]:

Darin sind P die Anzahl der Parameter in Milliarden, Q die Präzision in Bites (/8 in Bytes) und O ein zusätzlicher Speicherbedarf (Overhead) für Cache usw. in %. Für das GPT-OSS-20B-Modell werden GB benötigt, d. h. eine moderne, dafür ausgelegte Nvidia H100 Grafikkarte kann dies erfüllen, eine „gewöhnliche“ PC-Grafikkarten mit einstelligen GB RAM (meist DDR5) jedoch nicht. Im Falle von FP8 (Präzision der Modellgewichte während der Inferenz), werden rund 24 GB benötigt. CPU/RAM-Offloading wird in der Formel nicht berücksichtigt.

Abgesehen von diesen Modellgrößenordnungen und damit Hardwareanforderungen existieren spezialisierte ML-Modelle, z. B. TinyML, für Embedded Systeme, bei denen Mikrocontroller zum Einsatz kommen.[104][105]

Klassische Recurrent Neural Networks (RNN) arbeiten hingegen sequenziell, sodass GPUs oder TPUs (s. u.) hier ihre hardwarearchitektonischen Fähigkeiten nicht voll ausspielen können.[27.1] Neben den klassischen Grafikprozessoren, die ihren Erfolg vor allem in der Computerspieleindustrie (Computerspielebranche) haben[106], gibt es jedoch bereits optimierte Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen designed worden.

In dem Jahr 2016 wurde beispielsweise von Google die erste Version ihres Tensor Processing Unit (TPU) Systems vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Computerherstellern mit „KI-Beschleuniger“ für die Verwendung von LLMs. So haben beispielsweise die Unternehmen Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct-Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.

Software

Innerhalb der LLM-Technologie werden Softwareartefakte teilweise in Backend- und Frontend-Anteile eingeteilt. Dabei kommen eine Vielzahl von Programmbibliotheken zum Einsatz, beispielsweise PyTorch (benötigt NumPy für diverse Matrizen-Operationen) oder TensorFlow. Auch hier spielt die Optimierung bzw. Auslagerung auf GPU-Ressourcen eine Rolle: PyTorch kann das CUDA- oder das Metal Performance Shaders (MPS)-Backend (bzw. die API) von Apple nutzen.

Pseudo-Programmaufbau (Encoder-Decoder-Architektur)

Grundlegend (vgl. das Blockschema weiter oben):

  • Encoder: Eingang → Aufmerksamkeit → Addieren & Normieren → Fast Forward Netz (FFN) → Addieren & Normieren
  • Decoder: Eingang → Maskierte Selbst-Aufmerksamkeit → Addieren & Normieren → Kreuzaufmerksamkeit → Addieren & Normieren → FFN → Addieren & Normieren → Linearisieren → Softmax

Pseudo-Programmaufbau (Decoder-Architektur, GPT)

Der Aufbau zur Vorhersage des nächsten Token in einer Sequenz:[107]

  • (Annahme: Grundfunktionen Softmax, Matrixmultiplikation usw. verfügbar)
  • Modul: Selbst-Aufmerksamkeitsmodul (Implementiert den skalierten Skalarprodukt-Aufmerksamkeitsmechanismus)
  • Modul: Multi-Selbst-Aufmerksamkeitsmodule (Ermöglicht dem Modell, verschiedene Aspekte der Eingabe gleichzeitig zu berücksichtigen)
  • Modul: Feed-Forward-Netz (FFN)
  • Modul: Transformer Block (Kombiniert Multi-Selbst-Aufmerksamkeitsmodule (MHA) und Feed-Forward-Netz (FFN) mit Residualverbindungen)
  • GPT-Modell (Decoder-Transformer, der das nächste Token in einer Sequenz vorhersagt)
    1. Initialisierung von Modellparametern
    2. Initialisierung der Gewichte mit einer Normalverteilung
    3. Vorwärtsdurchlauf durch das Modell (liefert die vorhergesagten Token-Logits)
    4. Autoregressive Generierung neuer Token (Textgenerierung)

Rahmenprogramm

  • Laden und vorbereiten von Daten (Text)
  • Tokenisierung und Encodierung
  • Modell Initialisierung (siehe GPT oben)
  • Laden eines Optimierers zum Lernen
  • Trainieren des Modells (Schleife)
  • Speichern des Modells (Validierung, Decodierung)

Anwendungen

LLMs werden in verschiedenen IT-Umgebungen bzw. -Systemen (vgl. Cloud) im Zuge von Onlineservices von verschiedenen Internetdienstleistern angeboten. Letztere sind meist als Startups oder Innovationsabteilungen in Organisationen oder Unternehmen aufgestellt. Dabei ist es wichtig, dass einzelne Serviceanbieter unterschiedliche Modelle (oder Kombinationen) anbieten oder in ihre Produkte integrieren, beispielsweise Copilot, dort die Modelle GPT- oder Claude.[108]

Des Weiteren können seit den 2020er Jahren manche Modelle das Internet durchsuchen (vgl. Webcrawler) und die gefundenen Daten auswerten.[109]

Die Lizenzen in Bezug auf die Fähigkeiten, Nutzung und Datenverarbeitung der verschiedenen Modelle und Services reichen von proprietär über Open Source bis hin zu anderen. In diesem Zusammenhang spielt auch der Datenschutz eine übergeordnete Rolle.

Offene Modelle und Lokale LLMs

Einige Entwickler von LLMs bieten Modelle an, die als „Offene Modelle“ oder nach eigener Definition als „Open Source“ verfügbar sind.[110] Dazu zählen beispielsweise die OpenAI-Modelle GPT-OSS mit „offenen Gewichten“. Dabei bezeichnen „Open Weights“ die finalen Gewichte und Bias-Werte eines trainierten neuronalen Netzes. Diese Modelle werden auch als „Dual-Use Foundation Models“ bezeichnet.[111] Die Open Source Initiative (OSI) verfolgt eine eigene Definition von „offenen KI-Modellen“, die sich von der Definition der meisten Hersteller unterscheidet.[112]

Offene Modelle

Im Jahr 2022 veröffentlichten über 1.000 KI-Entwickler das Modell BLOOM (BigScience Large Open-science Open-access Multilingual Language Model). Es umfasst rund 176 Milliarden Parameter, also eine Milliarde mehr als das GPT-3 Modell.[113]

Facebook bzw. Meta veröffentlichte im Jahr 2023 das kostenfreie Modell LLaMA und verschiedene Varianten davon.

Ende 2025 veröffentliche OpenAI die GPT-OSS Modelle.[114] Sie sind unter der „Permissive License“ von Apache 2.0 lizenziert und können konfiguriert werden, beispielsweise hinsichtlich des Aufwands für Argumentation oder der Parameter. Weitere „Open-Weight“ Modelle sind: SmolLM3[115], Intellect 3, NHermes 4 u. dgl.

Lokale LLMs

Es besteht die Möglichkeit, vortrainierte LLMs lokal auf einem PC oder einer Workstation auszuführen.[116] Beispiele sind:

  • Alibaba Qwen3
  • DeepSeek V3[88]
  • Google Gemma 3
  • GPT-OSS
  • Mistral AI - Mistral 3

Software, die lokale LLMs unterstützen sind:

LLM-Technologie

Benchmarking

Für das Benchmarking kommen verschiedene Werkzeuge zum Einsatz, die sich teilweise (seit 2020er Jahren) selbst in Entwicklung befinden[117][118]:

Inferenz

Eine Vielzahl von Softwareartefakten zur Inferenz von LLMs existieren:

  • SGLang
  • LMDeploy
  • TRT-LLM
  • vLLM
  • LightLLM
  • Spezialisierte Software für AMD oder andere Hardware (vgl. „KI-Beschleuniger“)

Multimodal Learning

Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[124]

  • Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.
  • Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
  • Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
  • Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.

Bootstrapping Language-Image Pretraining

Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.

Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere große Sprachmodelle, bieten leistungsstarke Fähigkeiten zur Sprachgenerierung und Zero-Shot-Übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle während des Vortrainings eingefroren. Weil große Sprachmodelle jedoch während ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.[125]

Skalierungsgesetze

Passt man für jede Modalität die sieben Parameter der Gleichung

an und minimiert

für , wobei der Standard-Huberverlust für jeden Durchlauf und Modalität ist. Man setzt dann , , . Um die optimalen Minima zu identifizieren, verwendet man das BFGS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.[126]

Kollaps

Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen. Man spricht auch von einem sogenannten Modellkollaps.

Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d. h., dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch Webscraping erlangten Daten erscheint bisher als zu aufwändig.[127]

Glossar und Abkürzungen

Wort/AkronymBedeutung
Attention oder AufmerksamkeitMechanismus als Teil der Transformer-Architektur.[19][20] Nur-Decoder Architekturen (wie einige GPTs von OpenAI) benutzen spezielle Varianten der Aufmerksamkeitsmechanismen.[21][22]
BiasBias sind konstante Werte, die zu einem Signalwert aus den vorherigen Schichten addiert werden. Weights (siehe dort) und Biases sind Parameter.
DecoderDie Rückumwandlung von Informationen ist der Umkehrprozess des Encoders.[128]
Embedding oder WorteinbettungAls Embeddings werden Vektoren bezeichnet, die eine kontinuierliche Darstellung von Wörtern darstellen. In einem Transformer wird zunächst der Text durch Tokenisierung in Tokens zerlegt, bevor jedes Token in einen Vektor (Zahlen) konvertiert wird. Diese Vektoren werden dann in Matrizen umgewandelt, um weitere Prozessschritte zu ermöglichen.
EncoderEine Komponente eines neuronalen Netzes (NN), welches Eingabedaten wie Text oder Bilder in eine numerische Darstellung (Kodierung[129]) umwandelt.[25] Bei dieser Kodierung werden Informationen von einer Form in eine andere umgewandelt. Ein Dekodierer hingegen arbeitet genau umgekehrt.
FeinabstimmungDie Anpassung eines vortrainierten Modells an spezifische Aufgaben oder Domänen mithilfe zusätzlicher Trainingsdaten.
GenauigkeitEin Maß dafür, wie oft das Modell korrekt schlussfolgern wird.
GewichteSiehe Weights.
HalluzinationEine Form eines überzeugend formulierten Resultats, das nicht durch Trainingsdaten gerechtfertigt zu sein scheint und objektiv falsch sein kann.
InferenzBeschreibt das Durchlaufen von Datenpunkten mit einem Modell zur Vorhersage einer Klassifizierung. Hier spielt die Genauigkeit eine Rolle. Anderes ausgedrückt ist Inferenz der Vorgang, bei dem ein trainiertes KI-Modell verwendet wird, um Vorhersagen auf Basis neuer Daten zu treffen. Ein trainiertes Modell versucht, die aus den Trainingsdaten gelernten Muster anzuwenden, um die korrekte Ausgabe für eine gegebene Eingabe abzuleiten.[130]
KI-AgentKI-Systeme, die autonom planen, Werkzeuge einsetzen und mehrstufige Aufgaben mit minimalem menschlichen Eingriff ausführen können. Siehe auch Software-Agent.
Kontextfenster oder KontextlängeDas Kontextfenster oder Kontextlänge eines LLM ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Je größer das Kontextfenster, desto mehr Eingaben oder Informationen können von einem Modell verarbeitet und auch Ausgegeben werden.[90] Man kann auch von einem Kurzzeitgedächtnis bzw. Speicher des KI-Modells sprechen. Je größer dieser Speicher, desto eher kann das KI-Modell umfangreichere Antworten liefern.
LogitsDie Logits stellen die Vorhersagen des Modells dar. Sie zeigen, welcher Token als Nächstes folgen sollte.
Mixture-of-Experts (MoE)Eine moderne LLM-Architektur zur dynamischen Aktivierung von relevanten Teilmodellen für die verbesserte Verarbeitung von Eingangsdaten.[56] Um es zu unterscheiden, wird das Gegenstück der MoE-Architektur mittlerweile als „Dichte Architektur“ bezeichnet.
ModellkollapsProbleme im Zusammenhang mit unkontrolliertem zusätzlichen Training eines Modells mit Resultaten anderer Modelle oder früherer Versionen desselben Modells.
Modellkomprimierung (Optimierung)Verschiedene Techniken, darunter die Quantisierung, Destillation, Genauigkeit (Fließkommaoperationen), uvm.
MultimodalDas Modell kann verschiedene Datentypen wie Text, Bilder, Audio und Video verarbeiten oder ausgeben (generieren).
Parameter oder ModellparameterParameter oder Modellparameter sind eine Abbildung von Eingabedaten auf Ausgabedaten. Ein Modell versucht die Parameter so lange zu optimieren, bis das Ergebnis durch die KI dem erwarteten Ergebnis entspricht.[91]
PromptEine Benutzereingabe im Form eines Kommandos (von einfachen Fragen bis komplexen Konstrukten), um eine Reaktion hervorzurufen oder eine Aufgabe auszuführen.[131]
PruningDieses Optimierungsverfahren ist auch als „Gewichtsreduktionsverfahren“ bekannt. Dabei werden die Gewichte der Verbindungen zwischen einigen Neuronen innerhalb des Modells reduziert und im Grenzfall auf null gesetzt. Bei einer Modellberechnung werden diese Verbindungen dann nicht berücksichtigt. Auch einzelne Neuronen können reduziert werden.
QuantisierungEine Komprimierungstechnik für KI-Modelle, mit der sich die Effizienz der Inferenz verbessern lässt. Dabei werden die Genauigkeit der Modellparameter, die Bias-Werte und die Aktivierungen verändert, indem die Datenformate von beispielsweise 32-Bit-Fließkommazahlen (FP32) auf eine geringere Genauigkeit, beispielsweise 8-Bit (INT8), reduziert werden. 8-Bit ist für Embedded Systeme interessant. Die Hardware (Grafikprozessor bzw. „KI-Beschleuniger“) muss diese Technik unterstützen. Stand 2026 sind 4-Bit-FP in manchen Geräten (z. B. Nvidia Produkte) möglich.[99][100]
Retrieval-Augmented Generation (RAG)Eine LLM-Technik zur Verbesserung der Genauigkeit und Zuverlässigkeit durch externe Daten und Quellen. RAGs verbessern generative LLMs.
RLHFEine Trainingstechnik, die menschliche Präferenzen nutzt, um die Modellausgaben an gewünschte Verhaltensweisen anzupassen. Siehe auch AI-Alignment oder Bestärkendes Lernen (RL).
RPDRequests per Day (Anfragen pro Tag), zur Monetarisierung von LLMs.
RPMRequests per Minute (Anfragen pro Minute), zur Monetarisierung von LLMs.
Sequenz-AutoencoderDiese Methode kodiert eine Eingabesequenz in einen Vektor und rekonstruiert anschließend die ursprüngliche Sequenz. Sie hilft dabei, die zugrunde liegenden Muster in den Daten zu erfassen.
SprachmodelleSprachmodelle sagen das nächste Element einer Sequenz auf Basis der vorherigen Elemente voraus. Sie werden häufig in der natürlichen Sprachverarbeitung (NLP) eingesetzt, um Kontext und Struktur zu verstehen.
TokenEin Token ist eine Zeichenkette mit semantischer Bedeutung für ein Modell. Tokenisierung ist der Prozess, bei dem die Wörter Ihrer Eingabeaufforderung in Tokens umgewandelt werden.[89] Der Satz "Dieser Satz wird zerlegt" wird zu ["Dieser", "Satz", "wird", "zerlegt"]. Jeder Token wird dann zum Embedding (Vektor). OpenAI verwendet den Tokenizer o200k_harmony für das GPT-OSS.[132] Außerdem sind Token eine Abrechnungseinheit für die Monetarisierung von LLMs.
TransformerGrundlegende LLM-Architektur, die Selbstaufmerksamkeitsmechanismen zur Verarbeitung von Sequenzen nutzt. Dieser Mechanismus dient dazu, Token oder Wörtern in einer Eingabesequenz abzuwägen und so die Beziehungen zwischen ihnen besser zu verstehen.[133] LLM-Modelle werden mit dieser Technik befähigt, sich bei der Generierung von Ausgaben auf relevante Teile der Eingabe zu konzentrieren.
TPMToken per Minute (Token pro Minute), zur Monetarisierung von LLMs.
Weights (Gewichte)Gewichte sind numerische Werte, die die Bedeutung repräsentieren, die das LLM einer bestimmten Eingabe beimisst.[134] Sie sind die Verbindungen zwischen den künstlichen Neuronen in verschiedenen Schichten des LLM. Weights und Biases sind Parameter.
Weitere Begriffe, siehe auch die Referenz[135]

KI-gestützte Kriegsführung

Das Pentagon[136] unter Kriegsminister Pete Hegseth versucht seit spätestens dem Jahr 2025, moderne KI (LLMs oder andere KI-Software) für militärische Zwecke zu beschaffen. Dazu wurde auch eine Artificial Intelligence Strategy artikuliert.[137][138] Das Chief Digital and Artificial Intelligence Office (CDAO)[139] wurde speziell für die KI-gestützte Kampf- oder Kriegsführung ins Leben gerufen. Fachleute sehen jedoch Probleme in der zunehmenden Verbreitung von KI-Systemen über ältere, bestehende Systeme.[140]

Anfang 2026 kam es zu einer Auseinandersetzung zwischen dem LLM-Hersteller Anthropic und dem Pentagon.[141][142] Die Firma wollte vom US-Militär die Zusage, dass dieses ihr LLM-Modell Claude nicht in autonomen Waffensystemen (AWS) einsetzen wird, die in der Lage sind, Ziele ohne menschliches Eingreifen zu identifizieren und zu bekämpfen. Ebenso wurde keine Massenüberwachung gefordert. Ein Sprecher des Pentagon dementierte: „Wir fordern Folgendes: Erlauben Sie dem Pentagon, das Modell von Anthropic für alle rechtmäßigen Zwecke zu nutzen. Dies ist eine einfache, vernünftige Forderung, die verhindern wird, dass Anthropic kritische Militäroperationen gefährdet und möglicherweise unsere Soldaten in Gefahr bringt.“ Das Pentagon drohte Anthropic damit, die nicht verfügbaren Services (LLM-Modelle) als Lieferkettenproblem zu bezeichnen und den Defense Production Act zu aktivieren, um die Kontrolle über das Unternehmen zu erlangen.[143] Außerdem plant das Pentagon einzelnen Firmen den Zugang zum Trainieren von LLMs auf der Grundlage klassifizierter Daten zu ermöglichen.[144] Aufgrund der Spannungen wurde ebenfalls der LLM-Hersteller OpenAI angefragt.[145] Sam Altman kommentierte, dass OpenAI keinen Einfluss auf operative Entscheidungen hat und der Vertrag um folgende Formulierung ergänzt werden soll: „In Übereinstimmung mit den geltenden Gesetzen, einschließlich des Vierten Zusatzartikels zur Verfassung der Vereinigten Staaten, des National Security Act von 1947 und des FISA Act von 1978, darf das KI-System nicht absichtlich zur Überwachung von US-Bürgern und Staatsangehörigen im Inland eingesetzt werden.“ Auch die KI-Software des Unternehmens Palantir soll Teil der Beschaffungstrategie sein.[146]

Auswirkungen und Kontroversen

Bedrohungen durch KI/LLMs

Eine längliche und LLM-übergeordnete Kontroverse findet im Rahmen des Diskurses „Existenzielles Risiko durch künstliche Intelligenz“ statt.[147]

Ressourcenbedarf

Die Anforderungen an die Computerhardware (Halbleiterprodukte, speziell die Grafikprozessoren und Halbleiterspeicher High Bandwidth Memory (HBM), wie weiter oben ausgeführt), sowie der Energiebedarf, zunächst für das Training, und später die Inferenz eines LLMs (z. B. via ChatGPT oder generell per API), sind für diese Technologie und die gesamte IT-Branche eine einzigartige Herausforderungen.[92][148] Mit den gestiegenen Anforderungen an die Ressource Energie (genauer: Strom) geht teilweise sogar die Renaissance der Kernenergie bzw. Investitionen in die neuen Small Modular Reactors (SMR) einher.[149] (vgl. auch Atomzeitalter)

Sicherheitsaspekte

US-Präsident Joe Biden erklärte: „Künstliche Intelligenz (KI) birgt sowohl Chancen als auch Risiken.“[111] Er ordnete im Jahr 2023 den Executive Order (EO) 14110 „Executive Order on Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence“ an.[150]

Die LLM-Softwaretechnologie hat Einfluss auf verschiedene soziale, wirtschaftliche und politische Themen. Die Medien sprechen von einem „Wettrüsten“ bei der KI-Technologie. Dieses Aufrüsten bezieht sich im speziellen auf die Computerhardware, auch bekannt als „KI-Beschleuniger“. Aus Sicherheitsgründen wird die modernste Halbleitertechnologie durch Exportkontrollen eingeschränkt, beispielsweise von US-Technologie für die VR China.

Das im April 2026 von Anthropic entwickelte Modell „Mythos“ wurde angekündigt, aber nicht der Öffentlichkeit zugänglich gemacht. Anthropic argumentiert, dass das Modell über Fähigkeiten im Bereich Cybersecurity verfügt, die ein Sicherheitsrisiko darstellen würden.[151] In ersten Tests war das Modell in der Lage, verschiedene Zero-Day-Schwachstellen zu finden, die teilweise seit zwanzig Jahren nicht entdeckt worden waren.[152][153] Auf der anderer Seiten sehen Fachleute die Möglichkeiten, Angriffe mit dem Modell abzuwehren.

Siehe auch

Literatur

  • Endre Pap (Hrsg.): Artificial Intelligence: Theory and Applications (= Studies in Computational Intelligence. Band 973). Springer International Publishing, Cham 2021, ISBN 978-3-03072710-9, doi:10.1007/978-3-030-72711-6 (englisch).
  • Stephen Wolfram: What is ChatGPT doing ... and why does it work? Wolfram Media, Champaign, IL 2023, ISBN 978-1-57955-081-3 (englisch, Auch auf Deutsch erhältlich.).
  • Stephen Wolfram: Das Geheimnis hinter ChatGPT: wie die KI arbeitet und warum sie funktioniert (= mitp Professional). mitp-Verlag, Frechen 2023, ISBN 978-3-7475-0745-2.
  • Sabine Seufert, Siegfried Handschuh (Hrsg.): Generative Künstliche Intelligenz: ChatGPT und Co für Bildung, Wirtschaft und Gesellschaft. 1. Auflage. Schäffer-Poeschel Verlag, Stuttgart [Freiburg] 2024, ISBN 978-3-7910-6220-4.
  • Jürgen Franke, Anita Schöbel (Hrsg.): Statistical Machine Learning for Engineering with Applications (= Lecture Notes in Statistics. Band 227). Springer Nature Switzerland, Cham 2024, ISBN 978-3-03166252-2, doi:10.1007/978-3-031-66253-9 (englisch).
  • Jay Alammar, Maarten Grootendorst: Hands-On Large Language Models: Langauge Understanding and Generation. O’Reilly Media, Sebastopol, CA 2024, ISBN 978-1-09-815096-9 (englisch, llm-book.com).
  • Wolfgang Ertel: Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung (= Computational Intelligence). Springer Fachmedien Wiesbaden, Wiesbaden 2025, ISBN 978-3-658-44954-4, doi:10.1007/978-3-658-44955-1.
  • Martin Warnke: Large Language Kabbala: Eine kleine Geschichte der Großen Sprachmodelle (Fröhliche Wissenschaft), Matthes & Seitz, Berlin 2026, ISBN 978-3-7518-3060-7.
Commons: Large Language Model – Sammlung von Bildern, Videos und Audiodateien

Einzelnachweise

  1. Jay Alammar, Maarten Grootendorst: Hands-On Large Language Models: Langauge Understanding and Generation. O'Reilly Media, Sebastopol, CA 2024, ISBN 978-1-09-815096-9 (llm-book.com [abgerufen am 3. April 2026]).
  2. 1 2 3 4 Ibomoiye Domor Mienye et al.: Large language models: an overview of foundational architectures, recent trends, and a new taxonomy. In: Discover Applied Sciences. Band 7, Nr. 9, 2. September 2025, ISSN 3004-9261, doi:10.1007/s42452-025-07668-w (englisch, springer.com [abgerufen am 3. April 2026]).
  3. Patricia Kelbert, Dr Julien Siebert, Lisa Jöckel: Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? - Blog des Fraunhofer IESE. In: Fraunhofer IESE. 12. Dezember 2023, abgerufen am 8. November 2025.
  4. 1 2 Rishi Bommasani et al.: Considerations for governing open foundation models. In: Science. Band 386, Nr. 6718, 11. Oktober 2024, ISSN 0036-8075, S. 151–153, doi:10.1126/science.adp1848 (englisch, science.org [abgerufen am 1. April 2026]).
  5. Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Arxiv. 24. Mai 2019, abgerufen am 2. April 2026 (englisch).
  6. Zhilin Yang et al.: XLNet: Generalized Autoregressive Pretraining for Language Understanding. In: Arxiv. 2. Januar 2020, abgerufen am 2. April 2026 (englisch).
  7. Guandong Feng et al.: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. Band 1923. Springer Nature Singapore, Singapore 2023, ISBN 978-981-9972-23-4, S. 317–326, doi:10.1007/978-981-99-7224-1_25 (englisch, springer.com [abgerufen am 8. November 2025]).
  8. Samuel R. Bowman: Eight Things to Know about Large Language Models. In: ArXiv. 2. April 2023, abgerufen am 8. November 2025 (englisch).
  9. 1 2 Stephen Wolfram: What Is ChatGPT Doing … and Why Does It Work? In: Stephen Wolfram Writings. 14. Februar 2023 (englisch, stephenwolfram.com [abgerufen am 11. April 2026]).
  10. Was ist Feinabstimmung? | IBM. 15. März 2024, abgerufen am 10. Dezember 2024.
  11. Tom B. Brown et al.: Language Models are Few-Shot Learners. 22. Juli 2020, abgerufen am 8. November 2025 (englisch).
  12. Tom B. Brown et al.: Language Models are Few-Shot Learners. In: ArXiv. 22. Juli 2020, abgerufen am 1. April 2026 (englisch).
  13. Christopher D. Manning: Human Language Understanding & Reasoning. In: Dædalus. American Academy of Arts and Sciences, 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
  14. Aparna Krishna Bhat: The Evolution of AI: From Foundations to Future Prospects. In: IEEE Computer Society. IEEE, 11. März 2025, abgerufen am 2. April 2026 (englisch).
  15. John Leearchive page: The evolution of AI: From AlphaGo to AI agents, physical AI, and beyond. Abgerufen am 2. April 2026 (englisch).
  16. Zichong Wang, Zhibo Chu, Thang Viet Doan, Shiwen Ni, Min Yang, Wenbin Zhang: History, Development, and Principles of Large Language Models-An Introductory Survey. In: Arxiv. 23. September 2024, abgerufen am 1. April 2026 (englisch).
  17. Ian J. Goodfellow et al.: Generative Adversarial Networks. In: Arxiv. 10. Juni 2014, abgerufen am 2. April 2026 (englisch).
  18. Andrew M. Dai, Quoc V. Le: Semi-supervised Sequence Learning. In: Arxiv. 4. November 2015, abgerufen am 1. April 2026 (englisch).
  19. 1 2 3 Yuening Jia: Attention Mechanism in Machine Translation. In: Journal of Physics: Conference Series. Band 1314, Nr. 1, 1. Oktober 2019, ISSN 1742-6588, S. 012186, doi:10.1088/1742-6596/1314/1/012186 (englisch, iop.org [abgerufen am 4. April 2026]).
  20. 1 2 3 4 Ashish Vaswani et al.: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).
    1. „Die gängigen Sequenztransduktionsmodelle basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzen in einer Encoder-Decoder-Konfiguration. Die leistungsstärksten Modelle verbinden Encoder und Decoder zusätzlich über einen Aufmerksamkeitsmechanismus. Wir schlagen eine neue, einfache Netzwerkarchitektur vor, den Transformer, der ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Rekurrenz und Faltungen verzichtet.“
  21. 1 2 3 Hasi Hays: Attention mechanisms in neural networks. In: Arxiv. 6. Januar 2026, abgerufen am 4. April 2026 (englisch).
  22. 1 2 3 4 Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).
  23. Rob Toews: Transformers Revolutionized AI. What Will Replace Them? In: Forbes. 3. September 2023, abgerufen am 5. Februar 2024 (englisch).
  24. Ilya Sutskever, Oriol Vinyals, Quoc V. Le: Sequence to Sequence Learning with Neural Networks. In: ArXiv. 14. Dezember 2014, abgerufen am 1. April 2026 (englisch).
  25. 1 2 Rejaul Karim Barbhuiya et al.: Fundamentals of Encoders and Decoders in Generative AI. In: Generative AI: Current Trends and Applications. Band 1177. Springer Nature Singapore, Singapore 2024, ISBN 978-981-9784-59-2, S. 19–33, doi:10.1007/978-981-97-8460-8_2 (englisch, springer.com [abgerufen am 2. April 2026]).
  26. 1 2 Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. 19. Mai 2016, abgerufen am 8. November 2025.
  27. Transformer: A Novel Neural Network Architecture for Language Understanding. In: Google Research. 31. August 2017, abgerufen am 3. April 2026 (englisch).
    1. The sequential nature of RNNs also makes it more difficult to fully take advantage of modern fast computing devices such as TPUs and GPUs, which excel at parallel and not sequential processing. Convolutional neural networks (CNNs) are much less sequential than RNNs, but in CNN architectures like ByteNet or ConvS2S the number of steps required to combine information from distant parts of the input still grows with increasing distance.
  28. Jay Alammar: The Illustrated Transformer. 2025, abgerufen am 3. April 2026 (englisch).
  29. 1 2 Tianyang Lin et al.: A Survey of Transformers. In: Arxiv. 15. Juni 2021, abgerufen am 5. April 2026 (englisch).
  30. Jürgen Schmidhuber: 26 March 1991: Neural nets learn to program neural nets with fast weights—the first Transformer variants. 2021-: New stuff! In: Dalle Molle Institute for Artificial Intelligence (IDSIA). SUPSI, 2025, abgerufen am 5. April 2026: „Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5).“
  31. The 1991 Unnormalized Linear Transformer (ULTRA). In: Dalle Molle Institute for Artificial Intelligence (IDSIA). SUPSI, 2025, abgerufen am 4. April 2026.
  32. Jürgen Schmidhuber: Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Networks. In: Neural Computation. Band 4, Nr. 1, Januar 1992, ISSN 0899-7667, S. 131–139, doi:10.1162/neco.1992.4.1.131 (englisch, mit.edu [abgerufen am 4. April 2026]).
  33. Ashish Vaswani et al.: Tensor2Tensor for Neural Machine Translation. In: Arxiv. 16. März 2018, abgerufen am 3. April 2026 (englisch).
  34. tensorflow/tensor2tensor. In: Github. tensorflow, 3. April 2026, abgerufen am 3. April 2026 (englisch).
  35. Artit Wangperawong: Attending to Mathematical Language with Transformers. In: Arxiv. 14. September 2019, abgerufen am 3. April 2026 (englisch).
  36. Rick Merritt: What Is a Transformer Model? In: Nvidia. 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
  37. 1 2 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: ArXiv. 11. Oktober 2018, abgerufen am 1. April 2026 (englisch).
  38. History of LLMs: Complete Timeline & Evolution (1950-2026). In: Toloka. 19. Februar 2026, abgerufen am 1. April 2026 (englisch).
  39. Nico Litzel, Stefan Luber: Was ist BERT? In: Bigdata Insider. Vogel Communications Group, 10. Mai 2022, abgerufen am 8. November 2025.
  40. Yukun Zhu et al.: Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. In: Arxiv. 22. Juni 2015, abgerufen am 4. April 2026 (englisch, Originalpublikation zum BookCorpus. Der Datensatz ist bei Hugging Face neben hunderten bis tausenden anderen verfügbar.).
  41. Alec Radford et al.: Improving Language Understanding by Generative Pre-Training. Hrsg.: OpenAI. 2018 (englisch, openai.com [PDF]).
  42. Jack Bandy, Nicholas Vincent: Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus. In: Arxiv. 11. Mai 2021, abgerufen am 2. April 2026 (englisch).
  43. Richard Lea: Google swallows 11,000 novels to improve AI's conversation. In: The Guardian. 28. September 2016, ISSN 0261-3077 (theguardian.com [abgerufen am 2. April 2026]).
  44. TOYOTA MOTOR CORPORATION: Advancing the Integration of Robots and AI to Drive Technological Innovation | Frontier Research | Mobility. Abgerufen am 2. April 2026 (englisch).
  45. 1 2 3 4 Better language models and their implications. In: OpenAI. 14. Februar 2019, abgerufen am 15. Januar 2024 (englisch).
  46. openai/gpt-2. In: Github. OpenAI, 2. April 2026, abgerufen am 2. April 2026 (englisch).
  47. Alec Radford et al.: Language Models are Unsupervised Multitask Learners. Hrsg.: OpenAI. San Francisco, CA 2019 (englisch, openai.com [PDF]).
  48. Introducing ChatGPT. In: OpenAI. 30. November 2022, abgerufen am 4. April 2026 (englisch).
  49. ChatGPT turns 1: How the AI chatbot has completely changed the world. In: Euronews. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
  50. GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. In: Technology Review. 14. März 2023, abgerufen am 5. Februar 2024 (englisch).
  51. Parameters in notable artificial intelligence systems. Our World in Data, 3. April 2024, abgerufen am 16. Mai 2024 (britisches Englisch).
  52. Elo-basierte Leistungsvergleiche großer Sprachmodelle. In: AIFactum. 24. Februar 2026, abgerufen am 24. Februar 2026.
  53. google-research/bert. Google Research, 1. April 2026, abgerufen am 1. April 2026.
  54. Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. In: Arxiv. 26. Juli 2019, abgerufen am 2. April 2026 (englisch).
  55. Alex Wa: frontier model training methodologies. 31. Januar 2026, abgerufen am 3. April 2026 (englisch).
  56. 1 2 Siyuan Mu, Sen Lin: A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications. In: Arxiv. 24. Januar 2026, abgerufen am 2. April 2026 (englisch).
  57. Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan, Geoffrey E. Hinton: Adaptive Mixtures of Local Experts. In: Neural Computation. Band 3, Nr. 1, Februar 1991, ISSN 0899-7667, S. 79–87, doi:10.1162/neco.1991.3.1.79 (englisch, mit.edu [abgerufen am 3. April 2026]).
  58. Zixiang Chen et al.: Towards Understanding Mixture of Experts in Deep Learning. In: Arxiv. 4. August 2022, abgerufen am 3. April 2026 (englisch).
  59. Noam Shazeer et al.: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. In: Arxiv. 23. Januar 2017, abgerufen am 3. April 2026 (englisch).
  60. Shibo Jie et al.: Mixture of Lookup Experts. In: Arxiv. 25. Mai 2025, abgerufen am 5. April 2026 (englisch).
  61. Philipp Dufter, Martin Schmitt, Hinrich Schütze: Position Information in Transformers: An Overview. In: Computational Linguistics. Band 48, Nr. 3, 1. September 2022, ISSN 0891-2017, S. 733–763, doi:10.1162/coli_a_00445 (englisch, mit.edu [abgerufen am 5. April 2026]).
  62. Microsoft: AI Model Catalog | Microsoft Foundry Models. Microsoft, abgerufen am 2. April 2026 (englisch).
  63. Markus Städeli: Das sind die besten KI-Sprachmodelle und viele stammen auch China. 14. Dezember 2024, abgerufen am 18. März 2026.
  64. Nur Name/Bezeichnung, keine Einzel- oder Subvarianten
  65. Aaron Grattafiori et al.: The Llama 3 Herd of Models. In: Arxiv. 23. November 2024, abgerufen am 1. April 2026 (englisch).
  66. xai-org/grok-1. In: Github. xai-org, 2. April 2026, abgerufen am 2. April 2026 (englisch).
  67. Dhruvin Kotak, Yamini Barge, Tanvi Patel, Nitin Pandya, Rachit Adhvarvyu: Comparison of LLM Models of AI: A Comprehensive Analysis. In: ICT Analysis and Applications. Band 1651. Springer Nature Switzerland, Cham 2026, ISBN 978-3-03206687-9, S. 93–101, doi:10.1007/978-3-032-06688-6_9 (springer.com [abgerufen am 18. März 2026]).
  68. Hinweis: Einige Modell wurden bereits in Ruhestand (Legacy) geschickt. Die genauen Details sind bei den Herstellern zu überprüfen.
  69. Hinweis: 1 US-Billion := 1 DE-Milliarde ; 1 US-Trillion := 1 DE-Billionen
  70. Enclave AI: Understanding Model Sizes in 2025: A Practical Guide for Local LLMs - Enclave AI - Private, Local, Offline AI Assistant for MacOS and iOS. Abgerufen am 18. März 2026 (englisch).
  71. Geschätzte oder spezifizierte maximale Angaben für die Kontextlänge. Spätere Varianten (Versionen) des gleichen Modells teilweise mehr. Bei API-Zugriff teilweise Faktor 2 mehr.
  72. 1 2 3 ChatGPT — Release Notes. Abgerufen am 18. März 2026 (amerikanisches Englisch).
  73. 1 2 Aashiya Mittal: How Many Parameters Does GPT-5 Have? Full Breakdown (2025). In: OnGraph: Top Enterprise Web & Mobile App Development Company. 14. November 2025, abgerufen am 18. März 2026 (englisch).
  74. Etwa ~500 Seiten im Speicher
  75. Welcome | xAI — Creators of Grok, the AI Chatbot. Abgerufen am 18. März 2026 (englisch).
  76. 1 2 AI Model Parameter Counts: A Comprehensive Analysis. Archiviert vom Original am 12. März 2026; abgerufen am 18. März 2026 (amerikanisches Englisch).
  77. How up-to-date is Claude's training data? | Claude Help Center. Abgerufen am 18. März 2026 (englisch).
  78. GPT-5 Model | OpenAI API. Abgerufen am 18. März 2026 (englisch).
  79. L. L. M. Stats: Benchmark Leaderboard. 18. März 2026, abgerufen am 18. März 2026 (englisch).
  80. OpenAI, Sandhini Agarwal et al.: gpt-oss-120b & gpt-oss-20b Model Card. In: Arxiv. 8. August 2025, abgerufen am 3. April 2026 (englisch).
  81. Introducing: gpt-oss. In: OpenAI. 2. April 2026, abgerufen am 3. April 2026 (englisch).
  82. Simon Willison: OpenAI’s new open weight (Apache 2) models are really good. Abgerufen am 3. April 2026 (britisches Englisch).
  83. Models overview. Anthropic, abgerufen am 18. März 2026 (englisch).
  84. Anthropic unterscheidet: Reliable knowledge cutoff und Training data cutoff
  85. DeepSeek-AI, Daya Guo et al.: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. In: Arxiv. 4. Januar 2026, abgerufen am 3. April 2026 (englisch).
  86. Daya Guo et al.: DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. In: Nature. Band 645, Nr. 8081, 18. September 2025, ISSN 0028-0836, S. 633–638, doi:10.1038/s41586-025-09422-z, PMID 40962978, PMC 12443585 (freier Volltext) (englisch, nature.com [abgerufen am 3. April 2026]).
  87. deepseek-ai: DeepSeek-R1/LICENSE at main · deepseek-ai/DeepSeek-R1. Abgerufen am 3. April 2026 (englisch).
  88. 1 2 deepseek-ai/DeepSeek-V3. In: Github. DeepSeek, 3. April 2026, abgerufen am 3. April 2026 (englisch).
  89. 1 2 Tokens and tokenization. IBM, 20. November 2025, abgerufen am 19. März 2026 (englisch).
  90. 1 2 Was ist ein Kontextfenster? | IBM. IBM, 7. November 2024, abgerufen am 18. März 2026.
  91. 1 2 Was sind Modellparameter? | IBM. IBM, 5. Mai 2025, abgerufen am 19. März 2026.
  92. 1 2 3 James O'Donnell, Casey Crownhart: We did the math on AI’s energy footprint. Here’s the story you haven’t heard. In: Technology Review. 20. Mai 2025, abgerufen am 11. April 2026 (englisch).
  93. Xin Chen, Xiaoyang Wang, Ana Colacelli, Matt Lee, Le Xie: Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects. In: Arxiv. 26. November 2025, abgerufen am 1. April 2026 (englisch).
  94. The $7 trillion data center build-out: How industrials can capture their share. McKinsey, 27. März 2026, abgerufen am 1. April 2026 (englisch).
  95. DOE Releases New Report Evaluating Increase in Electricity Demand from Data Centers. In: DOE. 20. Dezember 2024, abgerufen am 11. April 2026 (englisch).
  96. 1 2 Jae-Won Chung et al.: The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization. In: Arxiv. 16. Oktober 2025, abgerufen am 11. April 2026 (englisch).
  97. 1 2 The ML.ENERGY Leaderboard. In: ML.ENERGY. 2026, abgerufen am 11. April 2026 (englisch).
  98. Zeus. In: ML.ENERGY. 2026, abgerufen am 11. April 2026 (englisch).
  99. 1 2 Introducing NVFP4 for Efficient and Accurate Low-Precision Inference. In: Nvidia. 24. Juni 2025, abgerufen am 3. April 2026 (amerikanisches Englisch).
  100. 1 2 Brian Chmiel et al.: FP4 All the Way: Fully Quantized Training of LLMs. In: Arxiv. 10. August 2025, abgerufen am 3. April 2026 (englisch).
  101. Calculating GPU memory for serving LLMs | LLM Inference Handbook. In: BentoML. Abgerufen am 5. April 2026 (englisch).
  102. Can You Run This LLM? VRAM Calculator (Nvidia GPU and Apple Silicon). In: ApX Machine Learning. 2026, abgerufen am 5. April 2026 (englisch).
  103. What is GPU Memory and Why it Matters for LLM Inference. In: BentoML. 21. November 2025, abgerufen am 5. April 2026 (englisch).
  104. Shriyank Somvanshi et al.: From Tiny Machine Learning to Tiny Deep Learning: A Survey. In: ACM Computing Surveys. Band 58, Nr. 7, 24. Dezember 2025, ISSN 0360-0300, S. 1–33, doi:10.1145/3776588 (englisch, acm.org [abgerufen am 5. April 2026]).
  105. Omar Ghazal et al.: TinyML: Applications, Algorithms, Co-design and Implementations. In: Smart and Connected Health: AI, IoT, and Trustworthy Technologies. Springer Nature Switzerland, Cham 2026, ISBN 978-3-03206285-7, S. 473–541, doi:10.1007/978-3-032-06286-4_6 (englisch, springer.com [abgerufen am 11. April 2026]).
  106. Jasper A. Friedrich: Die Computerspielbranche als Innovationstreiber für technologische und gesellschaftliche Entwicklungen. In: Game-Journalismus. Springer Fachmedien Wiesbaden, Wiesbaden 2023, ISBN 978-3-658-42615-6, S. 163–191, doi:10.1007/978-3-658-42616-3_12 (springer.com [abgerufen am 3. April 2026]).
  107. llm_hello_world/src/model.py at main · dparedesi/llm_hello_world. In: Github. 2025, abgerufen am 5. April 2026 (englisch).
  108. Charles Lamanna: Expanding model choice in Microsoft 365 Copilot. In: Microsoft 365 Blog. 24. September 2025, abgerufen am 18. März 2026 (amerikanisches Englisch).
  109. Shi Yu, Zhiyuan Liu, Chenyan Xiong: Craw4LLM: Efficient Web Crawling for LLM Pretraining. 19. Februar 2025, abgerufen am 1. April 2026 (englisch).
  110. Elizabeth Gibney: Not all ‘open source’ AI models are actually open: here’s a ranking. In: Nature. 19. Juni 2024, ISSN 0028-0836, doi:10.1038/d41586-024-02012-5 (englisch, nature.com [abgerufen am 1. April 2026]).
  111. 1 2 Dual-Use Foundation Models with Widely Available Model Weights Report | National Telecommunications and Information Administration. In: National Telecommunications and Information Administration (NTIA). 30. Juli 2024, abgerufen am 1. April 2026 (englisch).
  112. Open Weights: not quite what you’ve been told. In: Open Source Initiative. Abgerufen am 1. April 2026 (amerikanisches Englisch).
  113. Melissa Heikkiläarchive page: Inside a radical new project to democratize AI. In: Technology Review. 12. Juli 2022, abgerufen am 1. April 2026 (englisch).
  114. Introducing gpt-oss. In: OpenAI. 24. März 2026, abgerufen am 1. April 2026 (englisch).
  115. SmolLM3: smol, multilingual, long-context reasoner. In: Hugging Face. 10. September 2025, abgerufen am 3. April 2026 (englisch, Siehe dort für die Architektur).
  116. Tobias Mann: How to run an LLM locally on your PC in less than 10 minutes. In: The Register. 17. März 2024 (theregister.com [abgerufen am 11. April 2026]).
  117. C. Lawrence Zitnick, Aishwarya Agrawal, Stanislaw Antol, Margaret Mitchell, Dhruv Batra, Devi Parikh: Measuring Machine Intelligence Through Visual Question Answering. 31. August 2016, abgerufen am 18. März 2026 (englisch).
  118. Qi Qian et al.: Benchmark^2: Systematic Evaluation of LLM Benchmarks. 7. Januar 2026, abgerufen am 18. März 2026 (englisch).
  119. Wei-Lin Chiang et al.: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. In: ArXiv. 7. März 2024, abgerufen am 1. April 2026 (englisch).
  120. Arena | Benchmark & Compare the Best AI Models. Large Model Systems (LMSYS Corp.), abgerufen am 1. April 2026.
  121. David Rein et al.: GPQA: A Graduate-Level Google-Proof Q&A Benchmark. In: Arxiv. 20. November 2023, abgerufen am 3. April 2026 (englisch).
  122. Mark Chen et al.: Evaluating Large Language Models Trained on Code. 14. Juli 2021, abgerufen am 18. März 2026 (englisch).
  123. Stephanie Lin, Jacob Hilton, Owain Evans: TruthfulQA: Measuring How Models Mimic Human Falsehoods. 8. Mai 2022, abgerufen am 18. März 2026 (englisch).
  124. Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
  125. Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023, doi:10.48550/ARXIV.2301.12597, arxiv:2301.12597.
  126. Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
  127. Ilia Shumailov et al.: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) (englisch, nature.com [abgerufen am 27. Juli 2024]).
  128. Kyle Aitken et al.: Understanding How Encoder-Decoder Architectures Attend. In: Arxiv. 2021, abgerufen am 2. April 2026 (englisch).
  129. Siehe auch Zeichenkodierung und Code.
  130. Dave Bergmann: What is AI Inference? | IBM. 18. Juni 2024, abgerufen am 3. April 2026 (englisch).
  131. Qinyuan Ye et al.: Prompt Engineering a Prompt Engineer. In: Arxiv. 3. Juli 2024, abgerufen am 3. April 2026 (englisch).
  132. openai/harmony. In: Github. OpenAI, 3. April 2026, abgerufen am 3. April 2026 (englisch).
  133. Vanna Winland: Was ist ein Aufmerksamkeitsmechanismus? | IBM. 18. Februar 2025, abgerufen am 1. April 2026.
  134. Dave Bergmann: What is AI Inference? | IBM. 18. Juni 2024, abgerufen am 3. April 2026 (englisch).
  135. Billy Perrigo: The A to Z of Artificial Intelligence. In: Time. 13. April 2023, abgerufen am 2. April 2026 (englisch).
  136. Bisher: Verteidigungsministerium der Vereinigten Staaten; inoffiziell als Teil der Trump II Administration: Kriegsministerium der Vereinigten Staaten
  137. War Department Launches AI Acceleration Strategy to Secure American Military AI Dominance. Department of War, 12. Januar 2026, abgerufen am 1. April 2026 (englisch).
  138. Nooree Lee, Stephanie Barna, Robert Huffman, Ryan Burnette, Krissy Chapman, Eunsun Cho: Pentagon Releases Artificial Intelligence Strategy. In: Inside Government Contracts. Covington & Burling LLP, 3. Februar 2026, abgerufen am 1. April 2026 (amerikanisches Englisch).
  139. CDAO. Abgerufen am 1. April 2026 (englisch).
  140. Chad Hultz: The Biggest Mistake the Pentagon Made in Early AI Adoption. 20. Januar 2026, abgerufen am 1. April 2026 (englisch).
  141. The Military’s Use of AI, Explained | Brennan Center for Justice. In: Brennan Center for Justice at New York University School of Law. 11. März 2026, abgerufen am 1. April 2026 (englisch).
  142. Gericht stoppt vorerst Pentagon-Sperre gegen KI-Firma Anthropic. In: Tagesschau. 27. März 2026, abgerufen am 1. April 2026.
  143. What to know about Defense Protection Act and the Pentagon's Anthropic ultimatum. In: AP. 26. Februar 2026, abgerufen am 2. April 2026 (englisch).
  144. James O'Donnell: The Pentagon is planning for AI companies to train on classified data, defense official says. In: Technology Review. 17. März 2026, abgerufen am 1. April 2026 (englisch).
  145. A. B. C. News: OpenAI CEO Sam Altman says company doesn't 'get to make operational decisions' on military's use of its tech: Source. Abgerufen am 3. April 2026 (englisch).
  146. Exclusive: Pentagon to adopt Palantir AI as core US military system, memo says. In: Reuters. 21. März 2026, abgerufen am 1. April 2026 (englisch).
  147. Experten warnen: KI so gefährlich wie Pandemien oder Atomkrieg. In: Tagesschau. 30. Mai 2023, abgerufen am 1. April 2026.
  148. Pablo Valerio: How AI and Geopolitics Forge a Memory Market Crisis. In: EE Times. 25. März 2026, abgerufen am 11. April 2026 (englisch).
  149. Data Centres, Artificial Intelligence and Cryptocurrencies Eye Advanced Nuclear to Meet Growing Power Needs. In: IAEA Bulletin Vol. 65-3. IAEA, 4. Dezember 2024, abgerufen am 1. April 2026 (englisch).
  150. Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. In: Federal Register. 1. November 2023, abgerufen am 1. April 2026 (englisch).
  151. Kevin Roose: Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity ‘Reckoning’. In: The New York Times. 7. April 2026, ISSN 0362-4331 (englisch, nytimes.com [abgerufen am 12. April 2026]).
  152. Anthropic’s powerful new AI model raises concerns about high-tech risks. In: PBS. 9. April 2026, abgerufen am 12. April 2026 (amerikanisches Englisch).
  153. Jose Antonio Lanz: Anthropic's Mythos Safety Report Shows It Can No Longer Fully Measure What It Built. In: Decrypt. 8. April 2026, abgerufen am 12. April 2026 (amerikanisches Englisch).
     
    Wikipedia
    Dieser Text basiert auf dem Artikel Large_Language_Model aus der freien Enzyklopädie Wikipedia und steht unter der Lizenz Creative Commons CC-BY-SA 3.0 Unported (Kurzfassung). In der Wikipedia ist eine Liste der Autoren verfügbar.
     

    Auf der Suche nach einem Large Language Model Job? Finden Sie hier alle unsere offenen Positionen.

    Nicht das richtige Projekt oder den richtigen Job gefunden? Unser Jobboard wird täglich aktualisiert, schauen Sie gerne regelmäßig nach offenen Positionen im Large Language Model Umfeld oder anderen IT Technologien.

    Large Language Model Positionen zeigen

    Was SECUSTAFF Ihnen bietet

    Als spezialisierter Personaldienstleister bieten wir Ihnen die Schnittstelle zu einem riesigen Pool aus IT Experten, ob per Dienstvertrag (Contracting / Freelancer), per Arbeitnehmerüberlassung (ANÜ / AÜ), per Werkvertrag oder zur dauerhaften Festanstellung (Permanent Placement / Headhunting / Personalvermittlung).

    Geschwindigkeit

    Unsere Prozesse sind auf Effizienz ausgelegt, wir liefern meist innerhalb von 24 Stunden erste Profile.

    Transparenz

    Wir halten Sie immer auf dem Laufenden und arbeiten gerne nach dem Open Book Prinzip.

    Kostengünstig

    Unsere Effizienz ermöglicht uns, auch bei niedrigsten Margen noch rentabel zu wirtschaften.

    Modernste Technologien

    Wir arbeiten mit modernsten Systemen, automatisiert, papierlos, hocheffizient.

    Partnerschaftlich

    Unsere Geschäftspartner sind unser höchstes Gut, wir tun alles, um eine langfristige Basis aufzubauen.

    Erfahrung

    Unser Team verfügt über jahrzehntelange Erfahrung in der Besetzung von IT Positionen.

    Kommunikation

    Wir sind für Sie immer erreichbar, sowohl telefonisch als auch per E-Mail oder Web-Konferenz.

    Teamwork

    Unser Team arbeitet Hand in Hand, um Sie bei der Besetzung Ihrer Position zu unterstützen.

    Sicherheit

    Alle unsere Prozesse sind rechtssicher und unterliegen strengen Compliance Richtlinien.

    Alle Vertragsarten

    Wir bieten Dienstverträge, Werkverträge, ANÜ und Direktvermittlungen. Alles aus einer Hand.

    Logo weiss transparent

    SECUSTAFF GmbH
    Stadtkoppel 33
    21337 Lüneburg

    Tel. +49 (4131) 92 777 80
    info@secustaff.com

    © 2025 SECUSTAFF GmbH
    All rights reserved.