In dieser Folge werfen wir zunächst einen Blick auf neuronale Netze und erklären dann den Prozess der Entwicklung und das Training von LLMs (Large Language Models). LLMs sind leistungsstarke KI-Modelle, die entwickelt wurden, um menschenähnliche Texte zu verstehen und zu generieren. Ihre Grundlage bilden Transformer-Architekturen, die erstmals 2017 im wegweisenden Paper "Attention is All You Need" von Google eingeführt wurden. Diese Architektur hat das Feld des Machine Learnings revolutioniert, da sie es Modellen ermöglicht, kontextuelle Abhängigkeiten effizienter zu erfassen und dadurch präzisere Vorhersagen und generative Ergebnisse zu liefern.
Heute gibt es eine Vielzahl von LLMs, darunter OpenAI's GPT-Modelle, Googles BERT und T5 und Meta's LLaMA. Einige Modelle, wie OpenAI's GPT-4, sind multimodal, was bedeutet, dass sie nicht nur mit Texten, sondern auch mit Bildern arbeiten können. Diese Modelle kommen in unterschiedlichsten Anwendungsbereichen zum Einsatz, von Übersetzungen und Chatbots bis hin zur automatisierten Textgenerierung und Datenanalyse. Trotz ihrer beeindruckenden Leistungsfähigkeit gibt es Herausforderungen, insbesondere bei ethischen Fragen, der Reduktion von Bias und dem verantwortungsvollen Einsatz der Technologie.
Dr. Burkhard Heisen und Gerrit Meyer sprechen heute über:
(00:00) Neuronale Netze
(13:00) Sprachmodelle trainieren
(21:00) Funktionsweise LLLM
(28:00) Tokens
(34:00) Embeddings
(41:00) Attention / Transformer
(47:00) Finetuning und Trainingsdaten
(57:00) KI-Tools und Anpassung auf eigene Daten
Für Themenwünsche, Fragen und Feedback freuen wir uns auf deine E-Mail an
[email protected].
Einfach Komplex wird präsentiert und produziert von Heisenware. Mit Heisenware kannst du individuelle Apps ohne eine Zeile Code entwickeln und betreiben. Weitere Infos unter heisenware.com.