LLM 03 - Tokenisierung

Die Geschichte der Tokenisierung: Der Bibliothekar und die Wörter
Stell dir vor, du bist ein Bibliothekar in einer riesigen Bibliothek, die Millionen von Büchern enthält. Jedes Buch ist voller Geschichten, Wissen und Ideen, aber um all diese Informationen zu verstehen und zu organisieren, musst du sie erst in kleinere, handhabbare Teile zerlegen. Genau das ist Tokenisierung: der Prozess, bei dem ein großer Text in kleinere Einheiten, sogenannte Tokens, aufgeteilt wird, damit eine Maschine – wie ein Large Language Model (LLM) – ihn besser verarbeiten kann.

Der Bibliothekar und das riesige Buch
Unser Bibliothekar steht vor einem gewaltigen Buch, das tausende Seiten umfasst. Es ist unmöglich, das gesamte Buch auf einmal zu verstehen oder zu katalogisieren. Also beschließt er, es in kleinere Teile zu zerlegen: zuerst in Kapitel, dann in Absätze, dann in Sätze und schließlich in einzelne Wörter. Diese Wörter sind wie die Bausteine des Buches – sie machen es leichter, den Inhalt zu durchsuchen, zu verstehen und zu organisieren.
Genauso funktioniert Tokenisierung in einem LLM. Ein großer Text, wie ein Artikel oder ein Buch, wird in kleinere Einheiten zerlegt, die Tokens genannt werden. Diese Tokens können ganze Wörter sein (wie „Hund“ oder „laufen“), Teile von Wörtern (wie „un-“ in „unglaublich“) oder sogar einzelne Zeichen (wie „!"). Im Deutschen, wo es viele zusammengesetzte Wörter gibt, können Tokens auch Teile von Wörtern sein, zum Beispiel „Haus“ und „tür“ in „Haustür“.

Warum ist Tokenisierung so wichtig?
Ohne Tokenisierung wäre ein LLM wie unser Bibliothekar, der versucht, das gesamte Buch auf einmal zu lesen – es wäre überwältigend und chaotisch. Durch das Zerlegen des Textes in Tokens kann das Modell den Text schrittweise verarbeiten und Muster erkennen. Jedes Token ist wie ein Puzzlestück, das das Modell verwendet, um das Gesamtbild der Sprache zu verstehen.
Zum Beispiel wird der Satz „KI ist toll!“ in die Tokens [„KI“, „ist“, „toll“, „!“] aufgeteilt. Diese Tokens sind die Grundlage, auf der das Modell lernt, wie Wörter zusammenpassen, welche Bedeutungen sie haben und wie sie in verschiedenen Kontexten verwendet werden.

Die Herausforderung der Tokenisierung
Manchmal ist Tokenisierung nicht so einfach, wie es scheint. Stell dir vor, der Bibliothekar findet ein Wort wie „unzerbrechlich“. Soll er es als ein einziges Wort behandeln oder in kleinere Teile wie „un-“, „zer-“ und „brechlich“ aufteilen? Die Entscheidung kann den Sinn verändern. Wenn er es in Teile zerlegt, könnte das Modell die Bedeutung besser verstehen, aber es könnte auch zu Missverständnissen führen, wenn die Teile nicht richtig zusammengesetzt werden.
In LLMs gibt es ähnliche Herausforderungen. Manche Modelle verwenden Subwort-Tokenisierung, bei der häufige Wörter als Ganzes behandelt werden, während seltene Wörter in kleinere Teile zerlegt werden. Das hilft dem Modell, auch unbekannte Wörter zu verstehen, indem es sie aus bekannten Teilen zusammensetzt.

Tokenisierung und das Vokabular
Jedes LLM hat ein Vokabular, das wie ein Wörterbuch aller Tokens ist, die es kennt. Die Größe dieses Vokabulars ist wichtig: Ein größeres Vokabular kann mehr Nuancen erfassen, benötigt aber auch mehr Rechenleistung. Ein kleineres Vokabular ist effizienter, könnte aber Details übersehen.
Unser Bibliothekar muss sich entscheiden, wie detailliert er die Bücher aufnehmen will. Wenn er jedes Wort einzeln katalogisiert, kann er präziser suchen, aber es dauert länger. Wenn er nur grobe Kategorien verwendet, ist es schneller, aber er verliert möglicherweise wichtige Informationen.

Das Ende der Geschichte – Der erste Schritt zum Verstehen
Sobald der Text in Tokens zerlegt ist, kann das LLM beginnen, die Muster und Beziehungen zwischen den Tokens zu lernen. Es ist, als würde der Bibliothekar nach dem Zerlegen der Bücher in Wörter anfangen, die Wörter zu sortieren, zu kategorisieren und zu verstehen, wie sie zusammenpassen.
Tokenisierung ist der erste, entscheidende Schritt auf der Reise eines LLMs, Sprache zu verstehen und zu generieren. Ohne sie wäre der Text nur ein großer, unverständlicher Block – aber mit ihr wird er zu einem Puzzle, das das Modell Stück für Stück zusammensetzen kann.