21. Februar 2025

LLM 03 - Tokenisierung

    
    Die Geschichte der Tokenisierung: Der Bibliothekar und die Wörter

    
    Stell dir vor, du bist ein Bibliothekar in einer riesigen Bibliothek, die Millionen von Büchern enthält. Jedes Buch ist voller Geschichten, Wissen und Ideen, aber um all diese Informationen zu
    verstehen und zu organisieren, musst du sie erst in kleinere, handhabbare Teile zerlegen. Genau das ist 
    
    Tokenisierung:
    der Prozess, bei dem ein großer Text in kleinere Einheiten, sogenannte 
    
    Tokens,
    aufgeteilt wird, damit eine Maschine – wie ein Large Language Model (LLM) – ihn besser verarbeiten kann.

    
    Der Bibliothekar und das riesige Buch

    
    Unser Bibliothekar steht vor einem gewaltigen Buch, das tausende Seiten umfasst. Es ist unmöglich, das gesamte Buch auf einmal zu verstehen oder zu katalogisieren. Also beschließt er, es in
    kleinere Teile zu zerlegen: zuerst in Kapitel, dann in Absätze, dann in Sätze und schließlich in einzelne Wörter. Diese Wörter sind wie die Bausteine des Buches – sie machen es leichter, den
    Inhalt zu durchsuchen, zu verstehen und zu organisieren.

    
    Genauso funktioniert Tokenisierung in einem LLM. Ein großer Text, wie ein Artikel oder ein Buch, wird in kleinere Einheiten zerlegt, die 
    
    Tokens 
    
    genannt werden. Diese Tokens können ganze Wörter sein (wie „Hund“ oder „laufen“), Teile von Wörtern (wie „un-“ in „unglaublich“) oder sogar einzelne Zeichen (wie „!"). Im Deutschen, wo es viele
    zusammengesetzte Wörter gibt, können Tokens auch Teile von Wörtern sein, zum Beispiel „Haus“ und „tür“ in „Haustür“.

    
    Warum ist Tokenisierung so wichtig?

    
    Ohne Tokenisierung wäre ein LLM wie unser Bibliothekar, der versucht, das gesamte Buch auf einmal zu lesen – es wäre überwältigend und chaotisch. Durch das Zerlegen des Textes in Tokens kann das
    Modell den Text schrittweise verarbeiten und Muster erkennen. Jedes Token ist wie ein Puzzlestück, das das Modell verwendet, um das Gesamtbild der Sprache zu verstehen.

    
    Zum Beispiel wird der Satz „KI ist toll!“ in die Tokens [„KI“, „ist“, „toll“, „!“] aufgeteilt. Diese Tokens sind die Grundlage, auf der das Modell lernt, wie Wörter zusammenpassen, welche
    Bedeutungen sie haben und wie sie in verschiedenen Kontexten verwendet werden.

    
    Die Herausforderung der Tokenisierung

    
    Manchmal ist Tokenisierung nicht so einfach, wie es scheint. Stell dir vor, der Bibliothekar findet ein Wort wie „unzerbrechlich“. Soll er es als ein einziges Wort behandeln oder in kleinere
    Teile wie „un-“, „zer-“ und „brechlich“ aufteilen? Die Entscheidung kann den Sinn verändern. Wenn er es in Teile zerlegt, könnte das Modell die Bedeutung besser verstehen, aber es könnte auch zu
    Missverständnissen führen, wenn die Teile nicht richtig zusammengesetzt werden.

    
    In LLMs gibt es ähnliche Herausforderungen. Manche Modelle verwenden 
    
    Subwort-Tokenisierung,
    bei der häufige Wörter als Ganzes behandelt werden, während seltene Wörter in kleinere Teile zerlegt werden. Das hilft dem Modell, auch unbekannte Wörter zu verstehen, indem es sie aus bekannten
    Teilen zusammensetzt.

    
    Tokenisierung und das Vokabular

    
    Jedes LLM hat ein 
    
    Vokabular,
    das wie ein Wörterbuch aller Tokens ist, die es kennt. Die Größe dieses Vokabulars ist wichtig: Ein größeres Vokabular kann mehr Nuancen erfassen, benötigt aber auch mehr Rechenleistung. Ein
    kleineres Vokabular ist effizienter, könnte aber Details übersehen.

    
    Unser Bibliothekar muss sich entscheiden, wie detailliert er die Bücher aufnehmen will. Wenn er jedes Wort einzeln katalogisiert, kann er präziser suchen, aber es dauert länger. Wenn er nur grobe
    Kategorien verwendet, ist es schneller, aber er verliert möglicherweise wichtige Informationen.

    
    Das Ende der Geschichte – Der erste Schritt zum Verstehen

    
    Sobald der Text in Tokens zerlegt ist, kann das LLM beginnen, die Muster und Beziehungen zwischen den Tokens zu lernen. Es ist, als würde der Bibliothekar nach dem Zerlegen der Bücher in Wörter
    anfangen, die Wörter zu sortieren, zu kategorisieren und zu verstehen, wie sie zusammenpassen.

    
    Tokenisierung ist der erste, entscheidende Schritt auf der Reise eines LLMs, Sprache zu verstehen und zu generieren. Ohne sie wäre der Text nur ein großer, unverständlicher Block – aber mit ihr
    wird er zu einem Puzzle, das das Modell Stück für Stück zusammensetzen kann.