Mit SECUSTAFF die besten Large Language Model (LLM) Experten finden
Wenn Sie auf der Suche nach einem Large Language Model Spezialisten sind, dann sind Sie bei uns richtig. Ganz gleich ob Sie Mitarbeiter für eine unbefristete Festanstellung oder Freelancer für Ihr IT Projekt suchen.

Sie sind auf der Suche nach einem Large Language Model (LLM) Spezialisten? Senden Sie uns Ihre Position einfach und unverbindlich per E-Mail.
E-Mail sendenDas Wichtigste zum Thema Large Language Model (LLM)
Wir wissen nicht alles, aber wir wissen, wo wir es finden. Wenn Sie auch noch etwas zum Thema Large Language Model wissen möchten, finden Sie hier sicherlich die Antwort. Und falls Sie einen Experten benötigen, der all dieses Wissen bereits aufgebaut und erfolgreich in der Praxis eingesetzt hat, dann sprechen Sie uns an, wir finden für Sie die besten verfügbaren Large Language Model Fachkräfte, egal ob Sie einen Freelancer für einen Tag benötigen oder einen Mitarbeiter für eine dauerhafte Festanstellung. Wir stehen für Secure Staffing.
Large Language Model
Ein Large Language Model, kurz LLM (englisch, teilweise übertragen großes Sprachmodell), ist die Software-technische Realisierung eines mathematischen Sprachmodells, das sich durch seine Fähigkeit zur Textgenerierung auszeichnet.[1][2] Es handelt sich um ein sogenanntes computerlinguistisches Wahrscheinlichkeitsmodell, das statistische Wort- und Satzfolge-Beziehungen aus einer Vielzahl von Textdokumenten durch einen rechenintensiven Trainingsprozess erlernt hat und diese Fähigkeiten seinem Benutzer oder in einer anderen Anwendung zur Verfügung stellt.[3]
Der Trainingsprozess der Modelle lässt sich dabei grob in drei Phasen unterteilen: 1. Datenerfassung, 2. Modelltraining und 3. Feinabstimmung. Anschließend wird das trainierte Modell mittels Inferenz abgefragt.
LLMs sind eine Reihe moderner Techniken (Algorithmen und andere Softwareartefakte) im Bereich künstlicher Intelligenz (KI), die seit etwa Mitte der 2010er Jahre existieren und vorwiegend über Cloud Computing bereitgestellt werden. Einige Softwarelösungen erlauben jedoch auch die lokale Ausführung von LLM-Modellen. LLMs sind auch als Foundation Models[4][2], also Grundmodelle, einer komplexeren KI-Softwarearchitektur bekannt. Sie sind prägendes Merkmal der KI-Ära. LLMs sind Teil des Deep Learning (DL).
Beschreibung
Große Sprachmodelle erlangen ihre Fähigkeiten durch die Verwendung großer Datenmengen, um während des Trainings riesige Mengen von Parametern zu lernen. Sie sind im weiteren Sinne künstliche neuronale Netze (NN) und werden entweder durch selbstüberwachtes Lernen (a priori) oder halbüberwachte Lernmethoden trainiert.
Für diese künstlichen neuronalen Netze werden seit etwa dem Jahr 2018 sogenannte „Transformer“-Architekturen als Kern des Modells gewählt. Bekanntheit haben dabei die Generative Pretrained Transformer (GPT) Modelle, sowie das Modell Bidirectional Encoder Representations from Transformers (BERT) erlangt. Diese Modelle sind LLMs. BERT wurde von 2018 Google veröffentlicht.[5] Wenig später wurde „XLNet“ zur Verbesserung von BERT publiziert.[6]
Große Sprachmodelle arbeiten als „selbstanpassende Sprachmodelle“, die „verschiedene Aufgaben in natürlicher Sprache ausführen können, z. B. das Zusammenfassen, Übersetzen, Vorhersagen und Erstellen von Texten, indem sie einen Eingabetext nehmen und wiederholt das nächste Token oder Wort vorhersagen“.[7][8]
Nach Stephen Wolfram ist die Mechanik eines LLMs etwa wie folgt[9]: „Es fügt einfach ein Wort nach dem anderen hinzu.“ Es wird ein „Token“ hinzugefügt, das beispielsweise nur ein Wortteil sein kann. Daher kann es vorkommen, dass neue Wörter gebildet werden. Das Programm kann „Sätze“ generieren, in denen jedes Wort unabhängig und zufällig mit der gleichen Wahrscheinlichkeit ausgewählt wird, mit der es im Korpus vorkommt. Laut Wolfram ist die Grundidee, ein Modell zu entwickeln, mit dem man die Wahrscheinlichkeiten für das Auftreten von Sequenzen schätzen könne, auch wenn man diese Sequenzen im untersuchten Textkorpus nie explizit gesehen habe. Er meint, es werden einfach Dinge gesagt, die sich „richtig anhören“, basierend darauf, wie sie im Trainingsmaterial „klangen“. Laut Wolfram sei das Ganze auf einer übergeordneten Ebene noch nicht ganz klar.[9]
Bis etwa 2020 bestand die einzige Möglichkeit, ein Modell an bestimmte Aufgaben anzupassen, in der sogenannten Feinabstimmung.[10] Größere LLM-Modelle, wie z. B. das inzwischen populäre GPT-3, wurden jedoch so konzipiert, dass sie mit Hilfe des sogenannten „Prompt Engineering“ ähnliche Ergebnisse erzielen können.[11][12] Zusätzlich zu der Fähigkeit, Kenntnisse über Syntax, Semantik und „Ontologie“ in menschlichen Sprachkorpora zu erwerben, wird angenommen, dass große Sprachmodelle auch in der Lage sind, Ungenauigkeiten und Verzerrungen in den Korpora zu erfassen.[13]
Entstehung und Entwicklung
Vorläufer
Den modernen LLMs gingen verschiedene Entwicklungsstufen voraus.[14][15][2] Sie beruhen auf der Verarbeitung natürlicher Sprache.[16] Dazu zählen die statistische Zerlegung eines Textes in Fragmente, auch bekannt als N-Gramm-Analyse.
Ab den 2010er Jahren haben künstliche neuronale Netzwerke (NN) diese Fähigkeiten vertieft und erweitert. Für das „generative Lernen“ bzw. unüberwachte Lernen wurden ab 2014 die Generative Adversarial Networks (GANs) vorgestellt.[17] Die Semi-supervised Sequence Learning-Technik, ein Trainingsalgorithmus aus dem Jahr 2015, verbessert beispielsweise das Modelltraining durch die Nutzung sowohl markierter als auch unmarkierter Daten.[18] Im Jahr 2016 erreichte AlphaGo eine neue Leistungsgrenze „künstlicher Intelligenz“ gegen den Go-Spieler Lee Sedol. Es basierte u. a. auf der Technik und Algorithmik der Convolutional Neural Network (CNN) und Monte Carlo Tree Search (MCTS). Letzteres ist eine Verbesserung der Minimax-Methode.
Evolution der LLMs

Diese Entwicklungen wurden wiederum durch die Inhalte der Preprint-Publikation „Attention is All You Need“[20][19] (Aufmerksamkeit ist alles, was du brauchst), vorgestellt auf der Conference on Neural Information Processing Systems 2017 durch ein Google-Forscherteam, entscheidend geprägt.[23] Ein Ziel dieser Veröffentlichung war es, die sogenannte „Sequence-to-Sequence“ oder „Seq2seq“-Technik[24] (auch bekannt als „Encoder-Decoder-Architektur“[25]) zu verbessern.[26] Die Veröffentlichung führte einen sogenannten „englisch attention mechanism ‚Aufmerksamkeitsmechanismus‘“ ein.[22][26][21][20.1] Die Google-Arbeit stellte somit eine neue Transformer-Technik vor.[27][28][22][29] Die ersten Forschungen zu diesen Algorithmen gehen jedoch bis in die 1990er Jahre unter Jürgen Schmidhuber zurück.[30][31][32] Mit Googles Variante war ab 2017 ein neuer Stand des (bisherigen) maschinellen Lernens (ML) oder genauer Deep Learnings (DL) für die Sprachverarbeitung (LLMs) erreicht worden. Google Research verweist dabei auf die Tensor2Tensor (T2T)-Programmbibliothek (archiviert 2023), welche ML/DL verbessert und verschiedene Transformer anbietet.[33][34][35]
Transformer ermöglichen eine genauere und umfassendere Verarbeitung und Analyse von Textinformationen. Letztere sind sequenzielle Daten, die Transformer für Aufgaben wie Spracherzeugung und Übersetzung verstehen und erzeugen können. Sie sind ein neuronales Netzwerk, das Kontext und somit Bedeutung lernt, indem es die Beziehungen zwischen den Wörtern in einem Satz analysiert.[36]
Im Jahr 2018, kurz nach der Veröffentlichung der Transformer-Technik[20], wurden das Modell Bidirectional Encoder Representations from Transformers (BERT) von Google AI vorgestellt.[37][38] Obwohl der ursprüngliche Transformer sowohl Encoder- als auch Decoderblöcke hat, ist BERT ein reines Encoder-Modell.[39]
Die Entwicklungsabteilung von OpenAI arbeitete ebenfalls seit 2015 an einem neuen Modell. Das LLM-Modell GPT-1 wurde im Jahr 2018 jedoch als reines Decoder-Modell eingeführt. Die GPT- und BERT-Modelle wurden auf der Datenbasis „BookCorpus“[40] trainiert.[37][41] Dieser Datensatz bzw. Textkorpus enthält 7.000 selbstpublizierte Bücher und etwas unter einer Milliarde Wörter.[42] Auch Google hat 2016 eine Vielzahl an Büchern für das Training seiner LLM verwendet.[43] Forscher aus den Bereichen Industrie und Robotik versuchen hingegen, physikalische Umgebungsdaten zu erlernen und ihre Modelle entsprechend zu trainieren.[44]
Das Modell GPT-2 wurde schließlich im Frühjahr 2019 veröffentlicht.[45] Laut OpenAI wurde zunächst ein kleineres Modell veröffentlicht, da die Entwickler sich wie folgt äußerten: „Große, allgemeine Sprachmodelle könnten bedeutende gesellschaftliche Auswirkungen haben und bieten zudem zahlreiche kurzfristige Anwendungsmöglichkeiten.“[45] Sie verwiesen auf eine Vielzahl möglicher böswilliger Zwecke, die mit diesen Modellen verfolgt werden können, beispielsweise Deepfakes oder irreführende Nachrichtenartikel. Die Veröffentlichung der LLMs wird teilweise von einer Richtlinie (Policy) im Sinne einer Regulierung begleitet.[4]
GPT-2 wurde grundsätzlich so trainiert, dass es das nächste Wort in 40 GB Internettext (Daten) vorhersagen kann, d. h. wenn alle vorherigen Wörter gegeben sind. Es ist ein Sprachmodell mit 1,5 Milliarden Parametern, das mit einem Datensatz von 8 Millionen Webseiten trainiert wurden und auf Transformer-Technik basiert.[45] Die GPT-2 Entwicklung wurde mittlerweile eingestellt und steht unter einer modifizierten MIT-Lizenz.[46] Die Forschungsergebnisse wurden 2019 publiziert.[47]
GPT-3 aus dem Jahr 2020 war die nächste Entwicklungsstufe. Bis zu dem Modell GPT-3.5 waren alle OpenAI GPT-Modelle nur per Programmierschnittstelle (API) zu nutzen, was sich ab Ende 2022 änderte, als die webbasierte-Schnittstelle ChatGPT veröffentlicht wurde.[48][49]
2023 wurde GPT-4 für seine erhöhte Genauigkeit und als „heiliger Gral“ für seine multimodalen Fähigkeiten gepriesen.[50] Die genaue Softwarearchitektur und weitere Details des Modells wurden jedoch nicht öffentlich bekannt gegeben.
Seit dieser Zeit haben konkurrierende Sprachmodelle hinsichtlich der Anzahl der Parameter größtenteils mit der GPT-Serie gleichgezogen.[51] Beispielsweise übertraf im Jahr 2024 das Modell Googles Gemini Pro das GPT-4,[52] was die Elo-Bewertung betrifft. Letztere wird im Umfeld von LLM zum Benchmarking verwendet.
Das Git-Repository von BERT wurde Ende 2025 archiviert (Entwicklung eingefroren oder gestoppt).[53] Eine Weiterentwicklung von BERT durch Facebook AI ist bekannt geworden als RoBERTa (Robustly Optimized BERT Pretraining Approach).[54]
Die modernsten Modelle (sowohl algorithmisch, als auch softwarearchitektonisch) werden als „Frontier Modelle“ bezeichnet. Diese Modelle weisen beispielsweise eine Mixture-of-Experts (MoE)-Architektur und weitere algorithmische Bausteine einer komplexen LLM-Architektur auf.[55][56] Das MoE-Konzept geht auf Arbeiten aus den 1990er Jahren zurück und fand ihre Nutzung als Teil von ML/DL.[57][58][59][60]
Die Technik der Transformer ist nach wie vor Teil der Forschung (und gegebenenfalls Entwicklung).[29][61]
Umsetzungen und LLM-Hersteller
Beispiele für LLM-Software oder -Services oder -Apps sind Mistral AI, ChatGPT, Ernie Bot und Grok. Die Services sind dabei wie ein Chat aufgebaut, der mit seinem Benutzer kommuniziert, auch bekannt als Chatbot. Viele LLM-Hersteller (Unternehmen) sind Teil der modernen Digital Economy und versuchen, die LLM-Modelle zu monetarisieren. Zu den Anbietern von LLMs zählen unter anderem (Beispiele)[62]:
| Firma | Land | Modell(e)[64] | Weiteres |
|---|---|---|---|
| OpenAI | USA | GPT, nach dem Fachbegriff Generativer vortrainierter Transformer | Verwendung in z. B. Microsoft Copilot |
| Google/Alphabet | USA | Gemini, Gemma und weitere Varianten | |
| Google AI | USA | Language Model for Dialogue Applications (LaMDA) | Ein auf Dialoge (Audio) trainiertes Modell |
| Meta/Facebook | USA | Verschiedene LLaMA-Sprachmodelle[65] | Open-Source-Software (OSS) |
| Anthropic | USA | Claude | |
| xAI | USA | Grok[66] | |
| OpenAI | USA | Sora | Text-zu-Video-Generator |
| Alibaba | VR China | Qwen | |
| DeepSeek | VR China | DeepSeek | |
| 01.AI | VR China | Unbekannt | Venture, Kai-Fu Lee |
| Z.ai | VR China | GLM | Vgl. Chinas KI-Branche |
| DeepL | Deutschland | Verschiedene Services | Früher Convolutional Neural Network (CNN), dann Transformer |
| Aleph Alpha | Deutschland | Pharia, Luminous | |
| Mistral AI | Frankreich | Verschiedene Modelle, Mistral | Generatives KI-Modell |
| LLM | Veröffentlichung[68] | Parameter[69] | Modellgröße | Tokens (Kontextlänge)[70][71] | Mixture-of-Experts | Modalität | Datensatz/Training/Wissen | MMLU | Lizenz | Weiteres |
|---|---|---|---|---|---|---|---|---|---|---|
| GPT-3[72] | 29. Mai 2020 | 175M | klein | etwa 4k | Text | 2019 | Unbekannt | |||
| GPT-4[72] | 14. März 2023 | nicht bekanntgeben, klein; geschätzt etwa 300M[73] | riesig | ~128k[74] | Multimodal (Text, Bilder usw.) | Ende 2023 | 0.89 | |||
| Grok-1 | November 2023 | 314M | riesig | ~131k | Multimodal | Oktober 2023[75] | Unbekannt (0.875 = Grok-2) | |||
| Claude Sonnet 4 | 22. Mai 2025 | keine Angaben (Sonnet 3 etwa 70M[76]) | riesig | ~1Meg | Multimodal | Juli 2025 (Sonnet 4.5)[77] | Unbekannt (0.904 = Sonnet 3.5) | |||
| GPT-5[72] | 7. August 2025 | nicht bekanntgegeben, geschätzt 2 bis 5B[73] | gigantisch | ~400k[78] | Multimodal | 2024 | 0.925[79] | |||
| GPT-OSS[80][81] | 5. August 2025 | 120M/20M | riesig | 128k | x | Text | Die 20M Variante benötigt c. 32 GB RAM zum lokalen ausführen[82] | |||
| Claude Haiku 4.5[83] | 15. Oktober 2025 | keine Angaben (Haiku 3 etwa 20M[76]) | riesig | ~200k | Multimodal | Juli 2025[84] | Unbekannt | |||
| DeepSeek-R1[85][86] | 27. Juni 2025 | 671M, davon 37B „aktivierte Parameter“, plus kleinere „destillierte“ Modelle | riesig | ~33k | x | Text | ~0.9 | MIT[87] | Wendet Reinforcement Learning (RL) auf Basismodell an; die Architektur geht auf die Variante V3 zurück[88] | |
LLM-Jargon (siehe auch das Glossar):
| ||||||||||
LLM-Infrastruktur
IT, Rechenzentren und Energiebedarf
Das Training von LLMs benötigt extrem viele Rechenressourcen (speziell Speicher, siehe unter Hardware). Schätzungsweise benötigte das Training des GPT-4-Modells von OpenAI rund 50 GWh Energie (Strom) und kostete etwa 100 Millionen US-Dollar. Dies entspricht dem Stromverbrauch von San Francisco über drei Tage.[92] Für diese neuen Größenordnungen in der IT-Welt werden seit den 2020er Jahren eigens entwickelte und für KI oder LLMs optimierte Rechenzentren aufgebaut.[45][93][94] Schon heute werden rund 4,4 Prozent des gesamten Stromverbrauchs in den USA für Rechen- oder Datenzentren aufgewendet. Schätzungen zufolge wird sich diese Zahl drastisch erhöhen. Das Lawrence Berkeley National Laboratory (LBL) schätzt, dass bis 2028 mehr als die Hälfte des Stroms in Datenzentren für KI-Modelle verwendet wird. Zu diesem Zeitpunkt könnte KI allein so viel Strom verbrauchen wie 22 % aller US-Haushalte jährlich.[92][95] In den USA wurde 2025 das Stargate-Projekt angekündigt, eine Initiative für KI-optimierte Rechenzentren der Administration Trump II. Des Weiteren wurde die Pax-Silica-Initiative angekündigt, um die Lieferketten bei Halbleiterprodukten zu beeinflussen und sicherzustellen.
Im Rahmen eines Projekts untersuchen Fachleute den Stromverbrauch der LLMs und sammeln die Ergebnisse in einer Datenbank namens ML.ENERGY Benchmark.[96][97] Ein weiteres Teilprojekt von ML.ENERGY namens „Zeus“ versucht, den Energieverbrauch von Deep Learning (DL)-Applikationen (Modellen) zu messen und zu optimieren.[98]
Hardware
Für LLMs kommen nur modernste Prozessorgeneration bzw. spezialisierte Mehrkernprozessoren zum Einsatz. Im speziellen sind die „KI-Beschleuniger“ gemeint. Aufgrund der parallelen Abläufe und Datenzugriffe bei Convolutional Neural Networks (CNN) haben sich Grafikprozessoren (in Form von Grafik- oder spezialisierten Prozessorkarten), die besonders gut für Fließkommaoperationen (vgl. IEEE 754) geeignet sind, als geeignete erwiesen. Um die Modelle und deren Speicheranforderungen zu optimieren („Quantisierung“), geht man von 32-, zu 16-, 8- und mittlerweile zu kleinen 4-Bit Fließkommazahlen über.[99][100]
LLMs stellen enorm hohe Anforderungen an den Bedarf an die Computerressourcen, speziell den Grafikprozessor und den Grafikspeicher (VRAM, genauer: High Bandwidth Memory (HBM)). Der Speicherbedarf M in GB lässt sich grob abschätzen[101][102][103]:
Darin sind P die Anzahl der Parameter in Milliarden, Q die Präzision in Bites (/8 in Bytes) und O ein zusätzlicher Speicherbedarf (Overhead) für Cache usw. in %. Für das GPT-OSS-20B-Modell werden GB benötigt, d. h. eine moderne, dafür ausgelegte Nvidia H100 Grafikkarte kann dies erfüllen, eine „gewöhnliche“ PC-Grafikkarten mit einstelligen GB RAM (meist DDR5) jedoch nicht. Im Falle von FP8 (Präzision der Modellgewichte während der Inferenz), werden rund 24 GB benötigt. CPU/RAM-Offloading wird in der Formel nicht berücksichtigt.
Abgesehen von diesen Modellgrößenordnungen und damit Hardwareanforderungen existieren spezialisierte ML-Modelle, z. B. TinyML, für Embedded Systeme, bei denen Mikrocontroller zum Einsatz kommen.[104][105]
Klassische Recurrent Neural Networks (RNN) arbeiten hingegen sequenziell, sodass GPUs oder TPUs (s. u.) hier ihre hardwarearchitektonischen Fähigkeiten nicht voll ausspielen können.[27.1] Neben den klassischen Grafikprozessoren, die ihren Erfolg vor allem in der Computerspieleindustrie (Computerspielebranche) haben[106], gibt es jedoch bereits optimierte Chiparchitekturen, die für das Training und Inferencing von großen neuronalen Netzen designed worden.
In dem Jahr 2016 wurde beispielsweise von Google die erste Version ihres Tensor Processing Unit (TPU) Systems vorgestellt. Seit den 2020er Jahren gibt es aber eine ganze Reihe von Computerherstellern mit „KI-Beschleuniger“ für die Verwendung von LLMs. So haben beispielsweise die Unternehmen Cerebras den CS-1, CS-2 und CS-3, AMD die Instinct-Serie, Intel die Gaudi-Plattform und Nvidia Hopper bzw. dessen Nachfolger Blackwell eingeführt bzw. angekündigt.
Software
Innerhalb der LLM-Technologie werden Softwareartefakte teilweise in Backend- und Frontend-Anteile eingeteilt. Dabei kommen eine Vielzahl von Programmbibliotheken zum Einsatz, beispielsweise PyTorch (benötigt NumPy für diverse Matrizen-Operationen) oder TensorFlow. Auch hier spielt die Optimierung bzw. Auslagerung auf GPU-Ressourcen eine Rolle: PyTorch kann das CUDA- oder das Metal Performance Shaders (MPS)-Backend (bzw. die API) von Apple nutzen.
Pseudo-Programmaufbau (Encoder-Decoder-Architektur)
Grundlegend (vgl. das Blockschema weiter oben):
- Encoder: Eingang → Aufmerksamkeit → Addieren & Normieren → Fast Forward Netz (FFN) → Addieren & Normieren
- Decoder: Eingang → Maskierte Selbst-Aufmerksamkeit → Addieren & Normieren → Kreuzaufmerksamkeit → Addieren & Normieren → FFN → Addieren & Normieren → Linearisieren → Softmax
Pseudo-Programmaufbau (Decoder-Architektur, GPT)
Der Aufbau zur Vorhersage des nächsten Token in einer Sequenz:[107]
- (Annahme: Grundfunktionen Softmax, Matrixmultiplikation usw. verfügbar)
- Modul: Selbst-Aufmerksamkeitsmodul (Implementiert den skalierten Skalarprodukt-Aufmerksamkeitsmechanismus)
- Modul: Multi-Selbst-Aufmerksamkeitsmodule (Ermöglicht dem Modell, verschiedene Aspekte der Eingabe gleichzeitig zu berücksichtigen)
- Modul: Feed-Forward-Netz (FFN)
- Modul: Transformer Block (Kombiniert Multi-Selbst-Aufmerksamkeitsmodule (MHA) und Feed-Forward-Netz (FFN) mit Residualverbindungen)
- GPT-Modell (Decoder-Transformer, der das nächste Token in einer Sequenz vorhersagt)
- Initialisierung von Modellparametern
- Initialisierung der Gewichte mit einer Normalverteilung
- Vorwärtsdurchlauf durch das Modell (liefert die vorhergesagten Token-Logits)
- Autoregressive Generierung neuer Token (Textgenerierung)
Rahmenprogramm
- Laden und vorbereiten von Daten (Text)
- Tokenisierung und Encodierung
- Modell Initialisierung (siehe GPT oben)
- Laden eines Optimierers zum Lernen
- Trainieren des Modells (Schleife)
- Speichern des Modells (Validierung, Decodierung)
Anwendungen
LLMs werden in verschiedenen IT-Umgebungen bzw. -Systemen (vgl. Cloud) im Zuge von Onlineservices von verschiedenen Internetdienstleistern angeboten. Letztere sind meist als Startups oder Innovationsabteilungen in Organisationen oder Unternehmen aufgestellt. Dabei ist es wichtig, dass einzelne Serviceanbieter unterschiedliche Modelle (oder Kombinationen) anbieten oder in ihre Produkte integrieren, beispielsweise Copilot, dort die Modelle GPT- oder Claude.[108]
Des Weiteren können seit den 2020er Jahren manche Modelle das Internet durchsuchen (vgl. Webcrawler) und die gefundenen Daten auswerten.[109]
Die Lizenzen in Bezug auf die Fähigkeiten, Nutzung und Datenverarbeitung der verschiedenen Modelle und Services reichen von proprietär über Open Source bis hin zu anderen. In diesem Zusammenhang spielt auch der Datenschutz eine übergeordnete Rolle.
Offene Modelle und Lokale LLMs
Einige Entwickler von LLMs bieten Modelle an, die als „Offene Modelle“ oder nach eigener Definition als „Open Source“ verfügbar sind.[110] Dazu zählen beispielsweise die OpenAI-Modelle GPT-OSS mit „offenen Gewichten“. Dabei bezeichnen „Open Weights“ die finalen Gewichte und Bias-Werte eines trainierten neuronalen Netzes. Diese Modelle werden auch als „Dual-Use Foundation Models“ bezeichnet.[111] Die Open Source Initiative (OSI) verfolgt eine eigene Definition von „offenen KI-Modellen“, die sich von der Definition der meisten Hersteller unterscheidet.[112]
Offene Modelle
Im Jahr 2022 veröffentlichten über 1.000 KI-Entwickler das Modell BLOOM (BigScience Large Open-science Open-access Multilingual Language Model). Es umfasst rund 176 Milliarden Parameter, also eine Milliarde mehr als das GPT-3 Modell.[113]
Facebook bzw. Meta veröffentlichte im Jahr 2023 das kostenfreie Modell LLaMA und verschiedene Varianten davon.
Ende 2025 veröffentliche OpenAI die GPT-OSS Modelle.[114] Sie sind unter der „Permissive License“ von Apache 2.0 lizenziert und können konfiguriert werden, beispielsweise hinsichtlich des Aufwands für Argumentation oder der Parameter. Weitere „Open-Weight“ Modelle sind: SmolLM3[115], Intellect 3, NHermes 4 u. dgl.
Lokale LLMs
Es besteht die Möglichkeit, vortrainierte LLMs lokal auf einem PC oder einer Workstation auszuführen.[116] Beispiele sind:
- Alibaba Qwen3
- DeepSeek V3[88]
- Google Gemma 3
- GPT-OSS
- Mistral AI - Mistral 3
Software, die lokale LLMs unterstützen sind:
- Hugging Face
- Ollama
- LM Studio
- GPT4All
LLM-Technologie
Benchmarking
Für das Benchmarking kommen verschiedene Werkzeuge zum Einsatz, die sich teilweise (seit 2020er Jahren) selbst in Entwicklung befinden[117][118]:
- American Invitational Mathematics Examination (AIME)
- Biomedical Text Mining (BioNLP)
- Die Plattform Chatbot Arena.[119][120]
- Elo-Zahl
- GPQA Diamond[121], ein Multiple-Choice-Test in MINT-Fächern
- HumanEval[122]
- Logical Reasoning Test
- Massive Multitask Language Understanding (MMLU) – vgl. Genauigkeit
- ML.ENERGY Benchmark[96][97] – Energieverbrauch von LLMs
- TruthfulQA[123] – vgl. Halluzination
Inferenz
Eine Vielzahl von Softwareartefakten zur Inferenz von LLMs existieren:
- SGLang
- LMDeploy
- TRT-LLM
- vLLM
- LightLLM
- Spezialisierte Software für AMD oder andere Hardware (vgl. „KI-Beschleuniger“)
Multimodal Learning
Multimodal Learning verwendet verschieden strukturierte Daten im Bereich der künstlichen Intelligenz:[124]
- Text ist eine der am häufigsten verwendeten Modalitäten im maschinellen Lernen. Textdaten enthalten strukturierte Informationen, und mithilfe der natürlichen Sprachverarbeitung lässt sich leicht Wissen aus ihnen extrahieren. Die Techniken, die zur Verarbeitung dieser Informationen verwendet werden, umfassen Tokenisierung, Lemmatisierung, Syntaxanalyse, Erkennung von benannten Entitäten und Textklassifizierung.
- Bilder sind eine wesentliche Quelle visueller Informationen. Mithilfe von Convolutional Neural Networks konnten große Fortschritte beim Verständnis von Bildern erzielt werden. Verwendete Techniken sind z. B. die Objekterkennung, die Gesichtserkennung und die Segmentierung von Bildern.
- Die Audiomodalität umfasst Informationen aus Sprachaufnahmen, Tondateien oder Live-Streams.
- Videos sind eine leistungsstarke Quelle für multimodale Daten, weil sie visuelle und auditive Informationen kombinieren. Computer Vision und Audioverarbeitungstechniken ermöglichen es, Wissen aus einer Videosequenz zu extrahieren. Dies ermöglicht die Erkennung von sich bewegenden Objekten, die Analyse menschlicher Aktivitäten oder sogar die Erkennung von Gesten.
Bootstrapping Language-Image Pretraining
Die meisten modernen Vision-Language-Modelle benötigen während des Trainings einen hohen Rechenaufwand, weil das Training mit umfangreichen Modellen und Datensätzen erfolgt, vgl. Contrastive Language-Image Pre-training (CLIP). Die Forschung befindet sich an der Schnittstelle zwischen Sehen und Sprache. Daher ist zu erwarten, dass Vision-Language-Modelle von den leicht verfügbaren unimodalen Modellen der Bilderkennung und natürlichen Spracherkennung profitieren können.
Vortrainierte Vision-Modelle bieten eine qualitativ hochwertige visuelle Darstellung. Vortrainierte Sprachmodelle, insbesondere große Sprachmodelle, bieten leistungsstarke Fähigkeiten zur Sprachgenerierung und Zero-Shot-Übertragung. Um die Kosten zu senken und dem Problem des katastrophalen Vergessens entgegenzuwirken, bleiben die unimodalen vortrainierten Modelle während des Vortrainings eingefroren. Weil große Sprachmodelle jedoch während ihres unimodalen Vortrainings keine Bilder gesehen haben, macht das Einfrieren die visuelle Sprachausrichtung besonders schwierig.[125]
Skalierungsgesetze
Passt man für jede Modalität die sieben Parameter der Gleichung
an und minimiert
für , wobei der Standard-Huberverlust für jeden Durchlauf und Modalität ist. Man setzt dann , , . Um die optimalen Minima zu identifizieren, verwendet man das BFGS-Verfahren auf demselben Gitter der Initialisierungswerte. Die erhaltenen optimalen Werte befinden sich nicht an den Grenzen des Initialisierungsgitters. Die Skalierungsgesetze für jede Modalität sind im Einzelnachweis verfügbar. Die Parameter für jede Modalität variieren erheblich.[126]
Kollaps
Bei LLM und Foundation Models anderer Art (VAE, GMM) kann es durch das andauernde Training in der laufenden Nutzung zur dauerhaften, bis zur Unbrauchbarkeit reichenden Verschlechterung der Ergebnisqualität kommen. Man spricht auch von einem sogenannten Modellkollaps.
Dies betrifft insbesondere nachfolgende Modellversionen, die mit einem zunehmenden Anteil an künstlich generierten Daten trainiert werden, d. h., dass Teile der Trainingsdaten ebenfalls von einem LLM stammen. Eine Vorsortierung der in der Regel durch Webscraping erlangten Daten erscheint bisher als zu aufwändig.[127]
Glossar und Abkürzungen
| Wort/Akronym | Bedeutung |
|---|---|
| Attention oder Aufmerksamkeit | Mechanismus als Teil der Transformer-Architektur.[19][20] Nur-Decoder Architekturen (wie einige GPTs von OpenAI) benutzen spezielle Varianten der Aufmerksamkeitsmechanismen.[21][22] |
| Bias | Bias sind konstante Werte, die zu einem Signalwert aus den vorherigen Schichten addiert werden. Weights (siehe dort) und Biases sind Parameter. |
| Decoder | Die Rückumwandlung von Informationen ist der Umkehrprozess des Encoders.[128] |
| Embedding oder Worteinbettung | Als Embeddings werden Vektoren bezeichnet, die eine kontinuierliche Darstellung von Wörtern darstellen. In einem Transformer wird zunächst der Text durch Tokenisierung in Tokens zerlegt, bevor jedes Token in einen Vektor (Zahlen) konvertiert wird. Diese Vektoren werden dann in Matrizen umgewandelt, um weitere Prozessschritte zu ermöglichen. |
| Encoder | Eine Komponente eines neuronalen Netzes (NN), welches Eingabedaten wie Text oder Bilder in eine numerische Darstellung (Kodierung[129]) umwandelt.[25] Bei dieser Kodierung werden Informationen von einer Form in eine andere umgewandelt. Ein Dekodierer hingegen arbeitet genau umgekehrt. |
| Feinabstimmung | Die Anpassung eines vortrainierten Modells an spezifische Aufgaben oder Domänen mithilfe zusätzlicher Trainingsdaten. |
| Genauigkeit | Ein Maß dafür, wie oft das Modell korrekt schlussfolgern wird. |
| Gewichte | Siehe Weights. |
| Halluzination | Eine Form eines überzeugend formulierten Resultats, das nicht durch Trainingsdaten gerechtfertigt zu sein scheint und objektiv falsch sein kann. |
| Inferenz | Beschreibt das Durchlaufen von Datenpunkten mit einem Modell zur Vorhersage einer Klassifizierung. Hier spielt die Genauigkeit eine Rolle. Anderes ausgedrückt ist Inferenz der Vorgang, bei dem ein trainiertes KI-Modell verwendet wird, um Vorhersagen auf Basis neuer Daten zu treffen. Ein trainiertes Modell versucht, die aus den Trainingsdaten gelernten Muster anzuwenden, um die korrekte Ausgabe für eine gegebene Eingabe abzuleiten.[130] |
| KI-Agent | KI-Systeme, die autonom planen, Werkzeuge einsetzen und mehrstufige Aufgaben mit minimalem menschlichen Eingriff ausführen können. Siehe auch Software-Agent. |
| Kontextfenster oder Kontextlänge | Das Kontextfenster oder Kontextlänge eines LLM ist die Textmenge in Form von Tokens, die das Modell zu einem beliebigen Zeitpunkt berücksichtigen oder sich „merken“ kann. Je größer das Kontextfenster, desto mehr Eingaben oder Informationen können von einem Modell verarbeitet und auch Ausgegeben werden.[90] Man kann auch von einem Kurzzeitgedächtnis bzw. Speicher des KI-Modells sprechen. Je größer dieser Speicher, desto eher kann das KI-Modell umfangreichere Antworten liefern. |
| Logits | Die Logits stellen die Vorhersagen des Modells dar. Sie zeigen, welcher Token als Nächstes folgen sollte. |
| Mixture-of-Experts (MoE) | Eine moderne LLM-Architektur zur dynamischen Aktivierung von relevanten Teilmodellen für die verbesserte Verarbeitung von Eingangsdaten.[56] Um es zu unterscheiden, wird das Gegenstück der MoE-Architektur mittlerweile als „Dichte Architektur“ bezeichnet. |
| Modellkollaps | Probleme im Zusammenhang mit unkontrolliertem zusätzlichen Training eines Modells mit Resultaten anderer Modelle oder früherer Versionen desselben Modells. |
| Modellkomprimierung (Optimierung) | Verschiedene Techniken, darunter die Quantisierung, Destillation, Genauigkeit (Fließkommaoperationen), uvm. |
| Multimodal | Das Modell kann verschiedene Datentypen wie Text, Bilder, Audio und Video verarbeiten oder ausgeben (generieren). |
| Parameter oder Modellparameter | Parameter oder Modellparameter sind eine Abbildung von Eingabedaten auf Ausgabedaten. Ein Modell versucht die Parameter so lange zu optimieren, bis das Ergebnis durch die KI dem erwarteten Ergebnis entspricht.[91] |
| Prompt | Eine Benutzereingabe im Form eines Kommandos (von einfachen Fragen bis komplexen Konstrukten), um eine Reaktion hervorzurufen oder eine Aufgabe auszuführen.[131] |
| Pruning | Dieses Optimierungsverfahren ist auch als „Gewichtsreduktionsverfahren“ bekannt. Dabei werden die Gewichte der Verbindungen zwischen einigen Neuronen innerhalb des Modells reduziert und im Grenzfall auf null gesetzt. Bei einer Modellberechnung werden diese Verbindungen dann nicht berücksichtigt. Auch einzelne Neuronen können reduziert werden. |
| Quantisierung | Eine Komprimierungstechnik für KI-Modelle, mit der sich die Effizienz der Inferenz verbessern lässt. Dabei werden die Genauigkeit der Modellparameter, die Bias-Werte und die Aktivierungen verändert, indem die Datenformate von beispielsweise 32-Bit-Fließkommazahlen (FP32) auf eine geringere Genauigkeit, beispielsweise 8-Bit (INT8), reduziert werden. 8-Bit ist für Embedded Systeme interessant. Die Hardware (Grafikprozessor bzw. „KI-Beschleuniger“) muss diese Technik unterstützen. Stand 2026 sind 4-Bit-FP in manchen Geräten (z. B. Nvidia Produkte) möglich.[99][100] |
| Retrieval-Augmented Generation (RAG) | Eine LLM-Technik zur Verbesserung der Genauigkeit und Zuverlässigkeit durch externe Daten und Quellen. RAGs verbessern generative LLMs. |
| RLHF | Eine Trainingstechnik, die menschliche Präferenzen nutzt, um die Modellausgaben an gewünschte Verhaltensweisen anzupassen. Siehe auch AI-Alignment oder Bestärkendes Lernen (RL). |
| RPD | Requests per Day (Anfragen pro Tag), zur Monetarisierung von LLMs. |
| RPM | Requests per Minute (Anfragen pro Minute), zur Monetarisierung von LLMs. |
| Sequenz-Autoencoder | Diese Methode kodiert eine Eingabesequenz in einen Vektor und rekonstruiert anschließend die ursprüngliche Sequenz. Sie hilft dabei, die zugrunde liegenden Muster in den Daten zu erfassen. |
| Sprachmodelle | Sprachmodelle sagen das nächste Element einer Sequenz auf Basis der vorherigen Elemente voraus. Sie werden häufig in der natürlichen Sprachverarbeitung (NLP) eingesetzt, um Kontext und Struktur zu verstehen. |
| Token | Ein Token ist eine Zeichenkette mit semantischer Bedeutung für ein Modell. Tokenisierung ist der Prozess, bei dem die Wörter Ihrer Eingabeaufforderung in Tokens umgewandelt werden.[89] Der Satz "Dieser Satz wird zerlegt" wird zu ["Dieser", "Satz", "wird", "zerlegt"]. Jeder Token wird dann zum Embedding (Vektor). OpenAI verwendet den Tokenizer o200k_harmony für das GPT-OSS.[132] Außerdem sind Token eine Abrechnungseinheit für die Monetarisierung von LLMs. |
| Transformer | Grundlegende LLM-Architektur, die Selbstaufmerksamkeitsmechanismen zur Verarbeitung von Sequenzen nutzt. Dieser Mechanismus dient dazu, Token oder Wörtern in einer Eingabesequenz abzuwägen und so die Beziehungen zwischen ihnen besser zu verstehen.[133] LLM-Modelle werden mit dieser Technik befähigt, sich bei der Generierung von Ausgaben auf relevante Teile der Eingabe zu konzentrieren. |
| TPM | Token per Minute (Token pro Minute), zur Monetarisierung von LLMs. |
| Weights (Gewichte) | Gewichte sind numerische Werte, die die Bedeutung repräsentieren, die das LLM einer bestimmten Eingabe beimisst.[134] Sie sind die Verbindungen zwischen den künstlichen Neuronen in verschiedenen Schichten des LLM. Weights und Biases sind Parameter. |
| Weitere Begriffe, siehe auch die Referenz[135] | |
KI-gestützte Kriegsführung
Das Pentagon[136] unter Kriegsminister Pete Hegseth versucht seit spätestens dem Jahr 2025, moderne KI (LLMs oder andere KI-Software) für militärische Zwecke zu beschaffen. Dazu wurde auch eine Artificial Intelligence Strategy artikuliert.[137][138] Das Chief Digital and Artificial Intelligence Office (CDAO)[139] wurde speziell für die KI-gestützte Kampf- oder Kriegsführung ins Leben gerufen. Fachleute sehen jedoch Probleme in der zunehmenden Verbreitung von KI-Systemen über ältere, bestehende Systeme.[140]
Anfang 2026 kam es zu einer Auseinandersetzung zwischen dem LLM-Hersteller Anthropic und dem Pentagon.[141][142] Die Firma wollte vom US-Militär die Zusage, dass dieses ihr LLM-Modell Claude nicht in autonomen Waffensystemen (AWS) einsetzen wird, die in der Lage sind, Ziele ohne menschliches Eingreifen zu identifizieren und zu bekämpfen. Ebenso wurde keine Massenüberwachung gefordert. Ein Sprecher des Pentagon dementierte: „Wir fordern Folgendes: Erlauben Sie dem Pentagon, das Modell von Anthropic für alle rechtmäßigen Zwecke zu nutzen. Dies ist eine einfache, vernünftige Forderung, die verhindern wird, dass Anthropic kritische Militäroperationen gefährdet und möglicherweise unsere Soldaten in Gefahr bringt.“ Das Pentagon drohte Anthropic damit, die nicht verfügbaren Services (LLM-Modelle) als Lieferkettenproblem zu bezeichnen und den Defense Production Act zu aktivieren, um die Kontrolle über das Unternehmen zu erlangen.[143] Außerdem plant das Pentagon einzelnen Firmen den Zugang zum Trainieren von LLMs auf der Grundlage klassifizierter Daten zu ermöglichen.[144] Aufgrund der Spannungen wurde ebenfalls der LLM-Hersteller OpenAI angefragt.[145] Sam Altman kommentierte, dass OpenAI keinen Einfluss auf operative Entscheidungen hat und der Vertrag um folgende Formulierung ergänzt werden soll: „In Übereinstimmung mit den geltenden Gesetzen, einschließlich des Vierten Zusatzartikels zur Verfassung der Vereinigten Staaten, des National Security Act von 1947 und des FISA Act von 1978, darf das KI-System nicht absichtlich zur Überwachung von US-Bürgern und Staatsangehörigen im Inland eingesetzt werden.“ Auch die KI-Software des Unternehmens Palantir soll Teil der Beschaffungstrategie sein.[146]
Auswirkungen und Kontroversen
Bedrohungen durch KI/LLMs
Eine längliche und LLM-übergeordnete Kontroverse findet im Rahmen des Diskurses „Existenzielles Risiko durch künstliche Intelligenz“ statt.[147]
Ressourcenbedarf
Die Anforderungen an die Computerhardware (Halbleiterprodukte, speziell die Grafikprozessoren und Halbleiterspeicher High Bandwidth Memory (HBM), wie weiter oben ausgeführt), sowie der Energiebedarf, zunächst für das Training, und später die Inferenz eines LLMs (z. B. via ChatGPT oder generell per API), sind für diese Technologie und die gesamte IT-Branche eine einzigartige Herausforderungen.[92][148] Mit den gestiegenen Anforderungen an die Ressource Energie (genauer: Strom) geht teilweise sogar die Renaissance der Kernenergie bzw. Investitionen in die neuen Small Modular Reactors (SMR) einher.[149] (vgl. auch Atomzeitalter)
Sicherheitsaspekte
US-Präsident Joe Biden erklärte: „Künstliche Intelligenz (KI) birgt sowohl Chancen als auch Risiken.“[111] Er ordnete im Jahr 2023 den Executive Order (EO) 14110 „Executive Order on Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence“ an.[150]
Die LLM-Softwaretechnologie hat Einfluss auf verschiedene soziale, wirtschaftliche und politische Themen. Die Medien sprechen von einem „Wettrüsten“ bei der KI-Technologie. Dieses Aufrüsten bezieht sich im speziellen auf die Computerhardware, auch bekannt als „KI-Beschleuniger“. Aus Sicherheitsgründen wird die modernste Halbleitertechnologie durch Exportkontrollen eingeschränkt, beispielsweise von US-Technologie für die VR China.
Das im April 2026 von Anthropic entwickelte Modell „Mythos“ wurde angekündigt, aber nicht der Öffentlichkeit zugänglich gemacht. Anthropic argumentiert, dass das Modell über Fähigkeiten im Bereich Cybersecurity verfügt, die ein Sicherheitsrisiko darstellen würden.[151] In ersten Tests war das Modell in der Lage, verschiedene Zero-Day-Schwachstellen zu finden, die teilweise seit zwanzig Jahren nicht entdeckt worden waren.[152][153] Auf der anderer Seiten sehen Fachleute die Möglichkeiten, Angriffe mit dem Modell abzuwehren.
Siehe auch
Literatur
- Endre Pap (Hrsg.): Artificial Intelligence: Theory and Applications (= Studies in Computational Intelligence. Band 973). Springer International Publishing, Cham 2021, ISBN 978-3-03072710-9, doi:10.1007/978-3-030-72711-6 (englisch).
- Stephen Wolfram: What is ChatGPT doing ... and why does it work? Wolfram Media, Champaign, IL 2023, ISBN 978-1-57955-081-3 (englisch, Auch auf Deutsch erhältlich.).
- Stephen Wolfram: Das Geheimnis hinter ChatGPT: wie die KI arbeitet und warum sie funktioniert (= mitp Professional). mitp-Verlag, Frechen 2023, ISBN 978-3-7475-0745-2.
- Sabine Seufert, Siegfried Handschuh (Hrsg.): Generative Künstliche Intelligenz: ChatGPT und Co für Bildung, Wirtschaft und Gesellschaft. 1. Auflage. Schäffer-Poeschel Verlag, Stuttgart [Freiburg] 2024, ISBN 978-3-7910-6220-4.
- Jürgen Franke, Anita Schöbel (Hrsg.): Statistical Machine Learning for Engineering with Applications (= Lecture Notes in Statistics. Band 227). Springer Nature Switzerland, Cham 2024, ISBN 978-3-03166252-2, doi:10.1007/978-3-031-66253-9 (englisch).
- Jay Alammar, Maarten Grootendorst: Hands-On Large Language Models: Langauge Understanding and Generation. O’Reilly Media, Sebastopol, CA 2024, ISBN 978-1-09-815096-9 (englisch, llm-book.com).
- Wolfgang Ertel: Grundkurs Künstliche Intelligenz: Eine praxisorientierte Einführung (= Computational Intelligence). Springer Fachmedien Wiesbaden, Wiesbaden 2025, ISBN 978-3-658-44954-4, doi:10.1007/978-3-658-44955-1.
- Martin Warnke: Large Language Kabbala: Eine kleine Geschichte der Großen Sprachmodelle (Fröhliche Wissenschaft), Matthes & Seitz, Berlin 2026, ISBN 978-3-7518-3060-7.
Weblinks
Einzelnachweise
- ↑ Jay Alammar, Maarten Grootendorst: Hands-On Large Language Models: Langauge Understanding and Generation. O'Reilly Media, Sebastopol, CA 2024, ISBN 978-1-09-815096-9 (llm-book.com [abgerufen am 3. April 2026]).
- 1 2 3 4 Ibomoiye Domor Mienye et al.: Large language models: an overview of foundational architectures, recent trends, and a new taxonomy. In: Discover Applied Sciences. Band 7, Nr. 9, 2. September 2025, ISSN 3004-9261, doi:10.1007/s42452-025-07668-w (englisch, springer.com [abgerufen am 3. April 2026]).
- ↑ Patricia Kelbert, Dr Julien Siebert, Lisa Jöckel: Was sind Large Language Models? Und was ist bei der Nutzung von KI-Sprachmodellen zu beachten? - Blog des Fraunhofer IESE. In: Fraunhofer IESE. 12. Dezember 2023, abgerufen am 8. November 2025.
- 1 2 Rishi Bommasani et al.: Considerations for governing open foundation models. In: Science. Band 386, Nr. 6718, 11. Oktober 2024, ISSN 0036-8075, S. 151–153, doi:10.1126/science.adp1848 (englisch, science.org [abgerufen am 1. April 2026]).
- ↑ Jacob Devlin et al.: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: Arxiv. 24. Mai 2019, abgerufen am 2. April 2026 (englisch).
- ↑ Zhilin Yang et al.: XLNet: Generalized Autoregressive Pretraining for Language Understanding. In: Arxiv. 2. Januar 2020, abgerufen am 2. April 2026 (englisch).
- ↑ Guandong Feng et al.: Robust NL-to-Cypher Translation for KBQA: Harnessing Large Language Model with Chain of Prompts. In: Knowledge Graph and Semantic Computing: Knowledge Graph Empowers Artificial General Intelligence. Band 1923. Springer Nature Singapore, Singapore 2023, ISBN 978-981-9972-23-4, S. 317–326, doi:10.1007/978-981-99-7224-1_25 (englisch, springer.com [abgerufen am 8. November 2025]).
- ↑ Samuel R. Bowman: Eight Things to Know about Large Language Models. In: ArXiv. 2. April 2023, abgerufen am 8. November 2025 (englisch).
- 1 2 Stephen Wolfram: What Is ChatGPT Doing … and Why Does It Work? In: Stephen Wolfram Writings. 14. Februar 2023 (englisch, stephenwolfram.com [abgerufen am 11. April 2026]).
- ↑ Was ist Feinabstimmung? | IBM. 15. März 2024, abgerufen am 10. Dezember 2024.
- ↑ Tom B. Brown et al.: Language Models are Few-Shot Learners. 22. Juli 2020, abgerufen am 8. November 2025 (englisch).
- ↑ Tom B. Brown et al.: Language Models are Few-Shot Learners. In: ArXiv. 22. Juli 2020, abgerufen am 1. April 2026 (englisch).
- ↑ Christopher D. Manning: Human Language Understanding & Reasoning. In: Dædalus. American Academy of Arts and Sciences, 13. April 2022, abgerufen am 15. Januar 2024 (englisch).
- ↑ Aparna Krishna Bhat: The Evolution of AI: From Foundations to Future Prospects. In: IEEE Computer Society. IEEE, 11. März 2025, abgerufen am 2. April 2026 (englisch).
- ↑ John Leearchive page: The evolution of AI: From AlphaGo to AI agents, physical AI, and beyond. Abgerufen am 2. April 2026 (englisch).
- ↑ Zichong Wang, Zhibo Chu, Thang Viet Doan, Shiwen Ni, Min Yang, Wenbin Zhang: History, Development, and Principles of Large Language Models-An Introductory Survey. In: Arxiv. 23. September 2024, abgerufen am 1. April 2026 (englisch).
- ↑ Ian J. Goodfellow et al.: Generative Adversarial Networks. In: Arxiv. 10. Juni 2014, abgerufen am 2. April 2026 (englisch).
- ↑ Andrew M. Dai, Quoc V. Le: Semi-supervised Sequence Learning. In: Arxiv. 4. November 2015, abgerufen am 1. April 2026 (englisch).
- 1 2 3 Yuening Jia: Attention Mechanism in Machine Translation. In: Journal of Physics: Conference Series. Band 1314, Nr. 1, 1. Oktober 2019, ISSN 1742-6588, S. 012186, doi:10.1088/1742-6596/1314/1/012186 (englisch, iop.org [abgerufen am 4. April 2026]).
- 1 2 3 4 Ashish Vaswani et al.: Attention Is All You Need. In: ArXiv. 2. August 2023, abgerufen am 1. April 2026 (englisch, 1. Veröffentlichung im Jahr 2017 ; aktualisiert bis 2023).
- ↑ „Die gängigen Sequenztransduktionsmodelle basieren auf komplexen rekurrenten oder konvolutionellen neuronalen Netzen in einer Encoder-Decoder-Konfiguration. Die leistungsstärksten Modelle verbinden Encoder und Decoder zusätzlich über einen Aufmerksamkeitsmechanismus. Wir schlagen eine neue, einfache Netzwerkarchitektur vor, den Transformer, der ausschließlich auf Aufmerksamkeitsmechanismen basiert und vollständig auf Rekurrenz und Faltungen verzichtet.“
- 1 2 3 Hasi Hays: Attention mechanisms in neural networks. In: Arxiv. 6. Januar 2026, abgerufen am 4. April 2026 (englisch).
- 1 2 3 4 Zhaoyang Niu et al.: A review on the attention mechanism of deep learning. In: Neurocomputing. Band 452, 10. September 2021, ISSN 0925-2312, S. 48–62, doi:10.1016/j.neucom.2021.03.091 (englisch, sciencedirect.com [abgerufen am 4. April 2026]).
- ↑ Rob Toews: Transformers Revolutionized AI. What Will Replace Them? In: Forbes. 3. September 2023, abgerufen am 5. Februar 2024 (englisch).
- ↑ Ilya Sutskever, Oriol Vinyals, Quoc V. Le: Sequence to Sequence Learning with Neural Networks. In: ArXiv. 14. Dezember 2014, abgerufen am 1. April 2026 (englisch).
- 1 2 Rejaul Karim Barbhuiya et al.: Fundamentals of Encoders and Decoders in Generative AI. In: Generative AI: Current Trends and Applications. Band 1177. Springer Nature Singapore, Singapore 2024, ISBN 978-981-9784-59-2, S. 19–33, doi:10.1007/978-981-97-8460-8_2 (englisch, springer.com [abgerufen am 2. April 2026]).
- 1 2 Dzmitry Bahdanau, Kyunghyun Cho, Yoshua Bengio: Neural Machine Translation by Jointly Learning to Align and Translate. 19. Mai 2016, abgerufen am 8. November 2025.
- ↑ Transformer: A Novel Neural Network Architecture for Language Understanding. In: Google Research. 31. August 2017, abgerufen am 3. April 2026 (englisch).
- ↑ The sequential nature of RNNs also makes it more difficult to fully take advantage of modern fast computing devices such as TPUs and GPUs, which excel at parallel and not sequential processing. Convolutional neural networks (CNNs) are much less sequential than RNNs, but in CNN architectures like ByteNet or ConvS2S the number of steps required to combine information from distant parts of the input still grows with increasing distance.
- ↑ Jay Alammar: The Illustrated Transformer. 2025, abgerufen am 3. April 2026 (englisch).
- 1 2 Tianyang Lin et al.: A Survey of Transformers. In: Arxiv. 15. Juni 2021, abgerufen am 5. April 2026 (englisch).
- ↑ Jürgen Schmidhuber: 26 March 1991: Neural nets learn to program neural nets with fast weights—the first Transformer variants. 2021-: New stuff! In: Dalle Molle Institute for Artificial Intelligence (IDSIA). SUPSI, 2025, abgerufen am 5. April 2026: „Before 1991, no network learned by gradient descent to quickly compute the changes of the fast weight storage of another network or of itself. Such Fast Weight Programmers (FWPs) were published in 1991-93 [FWP0-2](Sec. 1, 2, 3, 4). They embody the principles found in certain types of what is now called attention [ATT](Sec. 4) and Transformers [TR1-6](Sec. 2, 3, 4, 5).“
- ↑ The 1991 Unnormalized Linear Transformer (ULTRA). In: Dalle Molle Institute for Artificial Intelligence (IDSIA). SUPSI, 2025, abgerufen am 4. April 2026.
- ↑ Jürgen Schmidhuber: Learning to Control Fast-Weight Memories: An Alternative to Dynamic Recurrent Networks. In: Neural Computation. Band 4, Nr. 1, Januar 1992, ISSN 0899-7667, S. 131–139, doi:10.1162/neco.1992.4.1.131 (englisch, mit.edu [abgerufen am 4. April 2026]).
- ↑ Ashish Vaswani et al.: Tensor2Tensor for Neural Machine Translation. In: Arxiv. 16. März 2018, abgerufen am 3. April 2026 (englisch).
- ↑ tensorflow/tensor2tensor. In: Github. tensorflow, 3. April 2026, abgerufen am 3. April 2026 (englisch).
- ↑ Artit Wangperawong: Attending to Mathematical Language with Transformers. In: Arxiv. 14. September 2019, abgerufen am 3. April 2026 (englisch).
- ↑ Rick Merritt: What Is a Transformer Model? In: Nvidia. 25. März 2022, abgerufen am 15. Januar 2024 (englisch).
- 1 2 Jacob Devlin, Ming-Wei Chang, Kenton Lee, Kristina Toutanova: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding. In: ArXiv. 11. Oktober 2018, abgerufen am 1. April 2026 (englisch).
- ↑ History of LLMs: Complete Timeline & Evolution (1950-2026). In: Toloka. 19. Februar 2026, abgerufen am 1. April 2026 (englisch).
- ↑ Nico Litzel, Stefan Luber: Was ist BERT? In: Bigdata Insider. Vogel Communications Group, 10. Mai 2022, abgerufen am 8. November 2025.
- ↑ Yukun Zhu et al.: Aligning Books and Movies: Towards Story-like Visual Explanations by Watching Movies and Reading Books. In: Arxiv. 22. Juni 2015, abgerufen am 4. April 2026 (englisch, Originalpublikation zum BookCorpus. Der Datensatz ist bei Hugging Face neben hunderten bis tausenden anderen verfügbar.).
- ↑ Alec Radford et al.: Improving Language Understanding by Generative Pre-Training. Hrsg.: OpenAI. 2018 (englisch, openai.com [PDF]).
- ↑ Jack Bandy, Nicholas Vincent: Addressing "Documentation Debt" in Machine Learning Research: A Retrospective Datasheet for BookCorpus. In: Arxiv. 11. Mai 2021, abgerufen am 2. April 2026 (englisch).
- ↑ Richard Lea: Google swallows 11,000 novels to improve AI's conversation. In: The Guardian. 28. September 2016, ISSN 0261-3077 (theguardian.com [abgerufen am 2. April 2026]).
- ↑ TOYOTA MOTOR CORPORATION: Advancing the Integration of Robots and AI to Drive Technological Innovation | Frontier Research | Mobility. Abgerufen am 2. April 2026 (englisch).
- 1 2 3 4 Better language models and their implications. In: OpenAI. 14. Februar 2019, abgerufen am 15. Januar 2024 (englisch).
- ↑ openai/gpt-2. In: Github. OpenAI, 2. April 2026, abgerufen am 2. April 2026 (englisch).
- ↑ Alec Radford et al.: Language Models are Unsupervised Multitask Learners. Hrsg.: OpenAI. San Francisco, CA 2019 (englisch, openai.com [PDF]).
- ↑ Introducing ChatGPT. In: OpenAI. 30. November 2022, abgerufen am 4. April 2026 (englisch).
- ↑ ChatGPT turns 1: How the AI chatbot has completely changed the world. In: Euronews. 30. November 2023, abgerufen am 5. Februar 2024 (englisch).
- ↑ GPT-4 is bigger and better than ChatGPT—but OpenAI won’t say why. In: Technology Review. 14. März 2023, abgerufen am 5. Februar 2024 (englisch).
- ↑ Parameters in notable artificial intelligence systems. Our World in Data, 3. April 2024, abgerufen am 16. Mai 2024 (britisches Englisch).
- ↑ Elo-basierte Leistungsvergleiche großer Sprachmodelle. In: AIFactum. 24. Februar 2026, abgerufen am 24. Februar 2026.
- ↑ google-research/bert. Google Research, 1. April 2026, abgerufen am 1. April 2026.
- ↑ Yinhan Liu, Myle Ott, Naman Goyal, Jingfei Du, Mandar Joshi, Danqi Chen, Omer Levy, Mike Lewis, Luke Zettlemoyer, Veselin Stoyanov: RoBERTa: A Robustly Optimized BERT Pretraining Approach. In: Arxiv. 26. Juli 2019, abgerufen am 2. April 2026 (englisch).
- ↑ Alex Wa: frontier model training methodologies. 31. Januar 2026, abgerufen am 3. April 2026 (englisch).
- 1 2 Siyuan Mu, Sen Lin: A Comprehensive Survey of Mixture-of-Experts: Algorithms, Theory, and Applications. In: Arxiv. 24. Januar 2026, abgerufen am 2. April 2026 (englisch).
- ↑ Robert A. Jacobs, Michael I. Jordan, Steven J. Nowlan, Geoffrey E. Hinton: Adaptive Mixtures of Local Experts. In: Neural Computation. Band 3, Nr. 1, Februar 1991, ISSN 0899-7667, S. 79–87, doi:10.1162/neco.1991.3.1.79 (englisch, mit.edu [abgerufen am 3. April 2026]).
- ↑ Zixiang Chen et al.: Towards Understanding Mixture of Experts in Deep Learning. In: Arxiv. 4. August 2022, abgerufen am 3. April 2026 (englisch).
- ↑ Noam Shazeer et al.: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer. In: Arxiv. 23. Januar 2017, abgerufen am 3. April 2026 (englisch).
- ↑ Shibo Jie et al.: Mixture of Lookup Experts. In: Arxiv. 25. Mai 2025, abgerufen am 5. April 2026 (englisch).
- ↑ Philipp Dufter, Martin Schmitt, Hinrich Schütze: Position Information in Transformers: An Overview. In: Computational Linguistics. Band 48, Nr. 3, 1. September 2022, ISSN 0891-2017, S. 733–763, doi:10.1162/coli_a_00445 (englisch, mit.edu [abgerufen am 5. April 2026]).
- ↑ Microsoft: AI Model Catalog | Microsoft Foundry Models. Microsoft, abgerufen am 2. April 2026 (englisch).
- ↑ Markus Städeli: Das sind die besten KI-Sprachmodelle und viele stammen auch China. 14. Dezember 2024, abgerufen am 18. März 2026.
- ↑ Nur Name/Bezeichnung, keine Einzel- oder Subvarianten
- ↑ Aaron Grattafiori et al.: The Llama 3 Herd of Models. In: Arxiv. 23. November 2024, abgerufen am 1. April 2026 (englisch).
- ↑ xai-org/grok-1. In: Github. xai-org, 2. April 2026, abgerufen am 2. April 2026 (englisch).
- ↑ Dhruvin Kotak, Yamini Barge, Tanvi Patel, Nitin Pandya, Rachit Adhvarvyu: Comparison of LLM Models of AI: A Comprehensive Analysis. In: ICT Analysis and Applications. Band 1651. Springer Nature Switzerland, Cham 2026, ISBN 978-3-03206687-9, S. 93–101, doi:10.1007/978-3-032-06688-6_9 (springer.com [abgerufen am 18. März 2026]).
- ↑ Hinweis: Einige Modell wurden bereits in Ruhestand (Legacy) geschickt. Die genauen Details sind bei den Herstellern zu überprüfen.
- ↑ Hinweis: 1 US-Billion := 1 DE-Milliarde ; 1 US-Trillion := 1 DE-Billionen
- ↑ Enclave AI: Understanding Model Sizes in 2025: A Practical Guide for Local LLMs - Enclave AI - Private, Local, Offline AI Assistant for MacOS and iOS. Abgerufen am 18. März 2026 (englisch).
- ↑ Geschätzte oder spezifizierte maximale Angaben für die Kontextlänge. Spätere Varianten (Versionen) des gleichen Modells teilweise mehr. Bei API-Zugriff teilweise Faktor 2 mehr.
- 1 2 3 ChatGPT — Release Notes. Abgerufen am 18. März 2026 (amerikanisches Englisch).
- 1 2 Aashiya Mittal: How Many Parameters Does GPT-5 Have? Full Breakdown (2025). In: OnGraph: Top Enterprise Web & Mobile App Development Company. 14. November 2025, abgerufen am 18. März 2026 (englisch).
- ↑ Etwa ~500 Seiten im Speicher
- ↑ Welcome | xAI — Creators of Grok, the AI Chatbot. Abgerufen am 18. März 2026 (englisch).
- 1 2 AI Model Parameter Counts: A Comprehensive Analysis. Archiviert vom am 12. März 2026; abgerufen am 18. März 2026 (amerikanisches Englisch).
- ↑ How up-to-date is Claude's training data? | Claude Help Center. Abgerufen am 18. März 2026 (englisch).
- ↑ GPT-5 Model | OpenAI API. Abgerufen am 18. März 2026 (englisch).
- ↑ L. L. M. Stats: Benchmark Leaderboard. 18. März 2026, abgerufen am 18. März 2026 (englisch).
- ↑ OpenAI, Sandhini Agarwal et al.: gpt-oss-120b & gpt-oss-20b Model Card. In: Arxiv. 8. August 2025, abgerufen am 3. April 2026 (englisch).
- ↑ Introducing: gpt-oss. In: OpenAI. 2. April 2026, abgerufen am 3. April 2026 (englisch).
- ↑ Simon Willison: OpenAI’s new open weight (Apache 2) models are really good. Abgerufen am 3. April 2026 (britisches Englisch).
- ↑ Models overview. Anthropic, abgerufen am 18. März 2026 (englisch).
- ↑ Anthropic unterscheidet: Reliable knowledge cutoff und Training data cutoff
- ↑ DeepSeek-AI, Daya Guo et al.: DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Learning. In: Arxiv. 4. Januar 2026, abgerufen am 3. April 2026 (englisch).
- ↑ Daya Guo et al.: DeepSeek-R1 incentivizes reasoning in LLMs through reinforcement learning. In: Nature. Band 645, Nr. 8081, 18. September 2025, ISSN 0028-0836, S. 633–638, doi:10.1038/s41586-025-09422-z, PMID 40962978, PMC 12443585 (freier Volltext) – (englisch, nature.com [abgerufen am 3. April 2026]).
- ↑ deepseek-ai: DeepSeek-R1/LICENSE at main · deepseek-ai/DeepSeek-R1. Abgerufen am 3. April 2026 (englisch).
- 1 2 deepseek-ai/DeepSeek-V3. In: Github. DeepSeek, 3. April 2026, abgerufen am 3. April 2026 (englisch).
- 1 2 Tokens and tokenization. IBM, 20. November 2025, abgerufen am 19. März 2026 (englisch).
- 1 2 Was ist ein Kontextfenster? | IBM. IBM, 7. November 2024, abgerufen am 18. März 2026.
- 1 2 Was sind Modellparameter? | IBM. IBM, 5. Mai 2025, abgerufen am 19. März 2026.
- 1 2 3 James O'Donnell, Casey Crownhart: We did the math on AI’s energy footprint. Here’s the story you haven’t heard. In: Technology Review. 20. Mai 2025, abgerufen am 11. April 2026 (englisch).
- ↑ Xin Chen, Xiaoyang Wang, Ana Colacelli, Matt Lee, Le Xie: Electricity Demand and Grid Impacts of AI Data Centers: Challenges and Prospects. In: Arxiv. 26. November 2025, abgerufen am 1. April 2026 (englisch).
- ↑ The $7 trillion data center build-out: How industrials can capture their share. McKinsey, 27. März 2026, abgerufen am 1. April 2026 (englisch).
- ↑ DOE Releases New Report Evaluating Increase in Electricity Demand from Data Centers. In: DOE. 20. Dezember 2024, abgerufen am 11. April 2026 (englisch).
- 1 2 Jae-Won Chung et al.: The ML.ENERGY Benchmark: Toward Automated Inference Energy Measurement and Optimization. In: Arxiv. 16. Oktober 2025, abgerufen am 11. April 2026 (englisch).
- 1 2 The ML.ENERGY Leaderboard. In: ML.ENERGY. 2026, abgerufen am 11. April 2026 (englisch).
- ↑ Zeus. In: ML.ENERGY. 2026, abgerufen am 11. April 2026 (englisch).
- 1 2 Introducing NVFP4 for Efficient and Accurate Low-Precision Inference. In: Nvidia. 24. Juni 2025, abgerufen am 3. April 2026 (amerikanisches Englisch).
- 1 2 Brian Chmiel et al.: FP4 All the Way: Fully Quantized Training of LLMs. In: Arxiv. 10. August 2025, abgerufen am 3. April 2026 (englisch).
- ↑ Calculating GPU memory for serving LLMs | LLM Inference Handbook. In: BentoML. Abgerufen am 5. April 2026 (englisch).
- ↑ Can You Run This LLM? VRAM Calculator (Nvidia GPU and Apple Silicon). In: ApX Machine Learning. 2026, abgerufen am 5. April 2026 (englisch).
- ↑ What is GPU Memory and Why it Matters for LLM Inference. In: BentoML. 21. November 2025, abgerufen am 5. April 2026 (englisch).
- ↑ Shriyank Somvanshi et al.: From Tiny Machine Learning to Tiny Deep Learning: A Survey. In: ACM Computing Surveys. Band 58, Nr. 7, 24. Dezember 2025, ISSN 0360-0300, S. 1–33, doi:10.1145/3776588 (englisch, acm.org [abgerufen am 5. April 2026]).
- ↑ Omar Ghazal et al.: TinyML: Applications, Algorithms, Co-design and Implementations. In: Smart and Connected Health: AI, IoT, and Trustworthy Technologies. Springer Nature Switzerland, Cham 2026, ISBN 978-3-03206285-7, S. 473–541, doi:10.1007/978-3-032-06286-4_6 (englisch, springer.com [abgerufen am 11. April 2026]).
- ↑ Jasper A. Friedrich: Die Computerspielbranche als Innovationstreiber für technologische und gesellschaftliche Entwicklungen. In: Game-Journalismus. Springer Fachmedien Wiesbaden, Wiesbaden 2023, ISBN 978-3-658-42615-6, S. 163–191, doi:10.1007/978-3-658-42616-3_12 (springer.com [abgerufen am 3. April 2026]).
- ↑ llm_hello_world/src/model.py at main · dparedesi/llm_hello_world. In: Github. 2025, abgerufen am 5. April 2026 (englisch).
- ↑ Charles Lamanna: Expanding model choice in Microsoft 365 Copilot. In: Microsoft 365 Blog. 24. September 2025, abgerufen am 18. März 2026 (amerikanisches Englisch).
- ↑ Shi Yu, Zhiyuan Liu, Chenyan Xiong: Craw4LLM: Efficient Web Crawling for LLM Pretraining. 19. Februar 2025, abgerufen am 1. April 2026 (englisch).
- ↑ Elizabeth Gibney: Not all ‘open source’ AI models are actually open: here’s a ranking. In: Nature. 19. Juni 2024, ISSN 0028-0836, doi:10.1038/d41586-024-02012-5 (englisch, nature.com [abgerufen am 1. April 2026]).
- 1 2 Dual-Use Foundation Models with Widely Available Model Weights Report | National Telecommunications and Information Administration. In: National Telecommunications and Information Administration (NTIA). 30. Juli 2024, abgerufen am 1. April 2026 (englisch).
- ↑ Open Weights: not quite what you’ve been told. In: Open Source Initiative. Abgerufen am 1. April 2026 (amerikanisches Englisch).
- ↑ Melissa Heikkiläarchive page: Inside a radical new project to democratize AI. In: Technology Review. 12. Juli 2022, abgerufen am 1. April 2026 (englisch).
- ↑ Introducing gpt-oss. In: OpenAI. 24. März 2026, abgerufen am 1. April 2026 (englisch).
- ↑ SmolLM3: smol, multilingual, long-context reasoner. In: Hugging Face. 10. September 2025, abgerufen am 3. April 2026 (englisch, Siehe dort für die Architektur).
- ↑ Tobias Mann: How to run an LLM locally on your PC in less than 10 minutes. In: The Register. 17. März 2024 (theregister.com [abgerufen am 11. April 2026]).
- ↑ C. Lawrence Zitnick, Aishwarya Agrawal, Stanislaw Antol, Margaret Mitchell, Dhruv Batra, Devi Parikh: Measuring Machine Intelligence Through Visual Question Answering. 31. August 2016, abgerufen am 18. März 2026 (englisch).
- ↑ Qi Qian et al.: Benchmark^2: Systematic Evaluation of LLM Benchmarks. 7. Januar 2026, abgerufen am 18. März 2026 (englisch).
- ↑ Wei-Lin Chiang et al.: Chatbot Arena: An Open Platform for Evaluating LLMs by Human Preference. In: ArXiv. 7. März 2024, abgerufen am 1. April 2026 (englisch).
- ↑ Arena | Benchmark & Compare the Best AI Models. Large Model Systems (LMSYS Corp.), abgerufen am 1. April 2026.
- ↑ David Rein et al.: GPQA: A Graduate-Level Google-Proof Q&A Benchmark. In: Arxiv. 20. November 2023, abgerufen am 3. April 2026 (englisch).
- ↑ Mark Chen et al.: Evaluating Large Language Models Trained on Code. 14. Juli 2021, abgerufen am 18. März 2026 (englisch).
- ↑ Stephanie Lin, Jacob Hilton, Owain Evans: TruthfulQA: Measuring How Models Mimic Human Falsehoods. 8. Mai 2022, abgerufen am 18. März 2026 (englisch).
- ↑ Multimodal Learning: Die Technik, die die künstliche Intelligenz revolutioniert. In: Weiterbildung Data Science | DataScientest.com. 17. August 2023, abgerufen am 24. Juni 2024 (deutsch).
- ↑ Junnan Li, Dongxu Li, Silvio Savarese, Steven Hoi: BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models. 2023, doi:10.48550/ARXIV.2301.12597, arxiv:2301.12597.
- ↑ Armen Aghajanyan, Lili Yu, Alexis Conneau, Wei-Ning Hsu, Karen Hambardzumyan, Susan Zhang, Stephen Roller, Naman Goyal, Omer Levy, Luke Zettlemoyer: Scaling Laws for Generative Mixed-Modal Language Models. 10. Januar 2023, doi:10.48550/ARXIV.2301.03728.
- ↑ Ilia Shumailov et al.: AI models collapse when trained on recursively generated data. In: Nature. Band 631, Nr. 8022, 25. Juli 2024, ISSN 0028-0836, S. 755–759, doi:10.1038/s41586-024-07566-y, PMID 39048682, PMC 11269175 (freier Volltext) – (englisch, nature.com [abgerufen am 27. Juli 2024]).
- ↑ Kyle Aitken et al.: Understanding How Encoder-Decoder Architectures Attend. In: Arxiv. 2021, abgerufen am 2. April 2026 (englisch).
- ↑ Siehe auch Zeichenkodierung und Code.
- ↑ Dave Bergmann: What is AI Inference? | IBM. 18. Juni 2024, abgerufen am 3. April 2026 (englisch).
- ↑ Qinyuan Ye et al.: Prompt Engineering a Prompt Engineer. In: Arxiv. 3. Juli 2024, abgerufen am 3. April 2026 (englisch).
- ↑ openai/harmony. In: Github. OpenAI, 3. April 2026, abgerufen am 3. April 2026 (englisch).
- ↑ Vanna Winland: Was ist ein Aufmerksamkeitsmechanismus? | IBM. 18. Februar 2025, abgerufen am 1. April 2026.
- ↑ Dave Bergmann: What is AI Inference? | IBM. 18. Juni 2024, abgerufen am 3. April 2026 (englisch).
- ↑ Billy Perrigo: The A to Z of Artificial Intelligence. In: Time. 13. April 2023, abgerufen am 2. April 2026 (englisch).
- ↑ Bisher: Verteidigungsministerium der Vereinigten Staaten; inoffiziell als Teil der Trump II Administration: Kriegsministerium der Vereinigten Staaten
- ↑ War Department Launches AI Acceleration Strategy to Secure American Military AI Dominance. Department of War, 12. Januar 2026, abgerufen am 1. April 2026 (englisch).
- ↑ Nooree Lee, Stephanie Barna, Robert Huffman, Ryan Burnette, Krissy Chapman, Eunsun Cho: Pentagon Releases Artificial Intelligence Strategy. In: Inside Government Contracts. Covington & Burling LLP, 3. Februar 2026, abgerufen am 1. April 2026 (amerikanisches Englisch).
- ↑ CDAO. Abgerufen am 1. April 2026 (englisch).
- ↑ Chad Hultz: The Biggest Mistake the Pentagon Made in Early AI Adoption. 20. Januar 2026, abgerufen am 1. April 2026 (englisch).
- ↑ The Military’s Use of AI, Explained | Brennan Center for Justice. In: Brennan Center for Justice at New York University School of Law. 11. März 2026, abgerufen am 1. April 2026 (englisch).
- ↑ Gericht stoppt vorerst Pentagon-Sperre gegen KI-Firma Anthropic. In: Tagesschau. 27. März 2026, abgerufen am 1. April 2026.
- ↑ What to know about Defense Protection Act and the Pentagon's Anthropic ultimatum. In: AP. 26. Februar 2026, abgerufen am 2. April 2026 (englisch).
- ↑ James O'Donnell: The Pentagon is planning for AI companies to train on classified data, defense official says. In: Technology Review. 17. März 2026, abgerufen am 1. April 2026 (englisch).
- ↑ A. B. C. News: OpenAI CEO Sam Altman says company doesn't 'get to make operational decisions' on military's use of its tech: Source. Abgerufen am 3. April 2026 (englisch).
- ↑ Exclusive: Pentagon to adopt Palantir AI as core US military system, memo says. In: Reuters. 21. März 2026, abgerufen am 1. April 2026 (englisch).
- ↑ Experten warnen: KI so gefährlich wie Pandemien oder Atomkrieg. In: Tagesschau. 30. Mai 2023, abgerufen am 1. April 2026.
- ↑ Pablo Valerio: How AI and Geopolitics Forge a Memory Market Crisis. In: EE Times. 25. März 2026, abgerufen am 11. April 2026 (englisch).
- ↑ Data Centres, Artificial Intelligence and Cryptocurrencies Eye Advanced Nuclear to Meet Growing Power Needs. In: IAEA Bulletin Vol. 65-3. IAEA, 4. Dezember 2024, abgerufen am 1. April 2026 (englisch).
- ↑ Safe, Secure, and Trustworthy Development and Use of Artificial Intelligence. In: Federal Register. 1. November 2023, abgerufen am 1. April 2026 (englisch).
- ↑ Kevin Roose: Anthropic Claims Its New A.I. Model, Mythos, Is a Cybersecurity ‘Reckoning’. In: The New York Times. 7. April 2026, ISSN 0362-4331 (englisch, nytimes.com [abgerufen am 12. April 2026]).
- ↑ Anthropic’s powerful new AI model raises concerns about high-tech risks. In: PBS. 9. April 2026, abgerufen am 12. April 2026 (amerikanisches Englisch).
- ↑ Jose Antonio Lanz: Anthropic's Mythos Safety Report Shows It Can No Longer Fully Measure What It Built. In: Decrypt. 8. April 2026, abgerufen am 12. April 2026 (amerikanisches Englisch).
Auf der Suche nach einem Large Language Model Job? Finden Sie hier alle unsere offenen Positionen.
Nicht das richtige Projekt oder den richtigen Job gefunden? Unser Jobboard wird täglich aktualisiert, schauen Sie gerne regelmäßig nach offenen Positionen im Large Language Model Umfeld oder anderen IT Technologien.
Large Language Model Positionen zeigen
Netzwerke / IT Security
LAN, WAN, Firewall, Penetration Testing, Backup / Recovery, Informationssicherheit, Identity Management, Virenschutz, ServiceNow, Netzwerksicherheit / Cybersecurity, Linux, SUSE Linux, Red Hat / RHEL, Ubuntu, Jitsi, Cloud, Nagios, VPN, VoIP, DNS, Cisco, S/MIME, Unified Communications (UC), IoT, i-doit, Zero Trust Security, Cloudflare, SIEM, NIS-2, Digitale Souveränität, Industrial IT
IT Service & Support
1st Level Support, 2nd Level Support, 3rd Level Support, Helpdesk / Service Desk / UHD, Onsite Support, Field Service, Rollout Techniker, ITIL Experten, Issue-Tracking-System Spezialisten, Service Manager (ITSM), SLA, Asset Management, Monitoring, Solarwinds, Jira, Knowledge Management, Mobile-Device-Management, Chatbot
Projektleitung, Finance & QM
IPMA, PMI, PRINCE2, ITIL, Berater DIN Normen, Berater ISO Normen, BSI Trainer / Auditoren, PMO, IT-Projektleiter / IT-Projektmanager, Transition Manager, Interim Manager, Change Manager, Risk Manager, Lean Manager, Kanban, Business Analysten, Data Scientists, Qualitätssicherung, IFRS, Agiles Management, OKRs, Business Intelligence
Datenbanken
Datenbankadministratoren / DBA, Datenbankentwickler, Datenbankarchitekten, DMS, MS SQL Server, Oracle, PL/SQL, T-SQL, mySQL, NoSQL, DB2, CouchDB, Big Data, MongoDB, MariaDB, DMS, ILIAS, Data Warehouse / DWH, ETL, OLAP, Apache Kafka, Hochverfügbarkeit, UC4, Salesforce, Snowflake, GraphQL, Blockchain, Graphdatenbank, Vektordatenbank
Softwareentwicklung / Emerging Technologies
Front-End, Back-End, Webentwickler, Full-Stack Entwickler, C, C++, C#, .NET, Java, JavaScript, Python, Ruby / Ruby on Rails, HTML, CSS, PHP, TypeScript, DevOps, Agile Softwareentwicklung, Scrum, Docker, React, Spring, Jenkins, Angular, Bash (Shell), iOS, Android, PowerShell, Debugging, Kubernetes, GCP, AWS, OpenShift, ISTQB Tester, SPS, Frameworks, ChatGPT, Flutter, Edge Computing, KI / AI, Quantum Computing, Generative KI, Low-Code-Plattform, Webassembly, LLM
Microsoft Infrastrukturen
Windows Clients, Windows 10, Windows 11, Windows Server 2019, Windows Server 2022, Windows Server 2025, Microsoft 365, Active Directory, Microsoft Azure, GPOs, MS SCCM, MS Office, MS Exchange, BizTalk, MS IIS, Hyper-V, Microsoft Dynamics 365 Business Central, HCL Notes / Domino, VMware, SharePoint, Microsoft Copilot, Microsoft Loop, Microsoft Intune, Microsoft Power Automate
SAP
SAP ERP, SAP Netweaver, Application Server, SAP Business Client, SAP Business Objects Analysis, SAP Cloud Platform, SAP Enterprise Portal, SAP Process Integration, SAP Solution Manager, SAP ITS, ABAP, SAP MaxDB, SAP GUI, SAP FI/CO, SAP APO, SAP SD, SAP PP, SAP MM, SAP BW / SAP BI, SAP HCM, SAP WM, SAP CS, SAP PI, SAP QM, SAP Concur, SAP for Retail, SAP IS-U, SAP IS-A, SAP R/3, SAP HANA, SAP S/4HANA, OpenUI5, Fiori
