虎嗅

**Neues Architekturmodell HRM-Text erzielt Innovationen: 1 Milliarde Parameter, Preis von 1.000 US-Dollar – sogar der Turing-Preisträger ist persönlich involviert!**

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

Zusammenfassung der Kerninhalte

HRM-Text ist ein AI-Modell mit 1 Milliarde Parametern, dessen Trainingskosten lediglich 1500 US-Dollar betrugen (16 H100-GPUs wurden für etwas weniger als zwei Tage eingesetzt). Dennoch übertraf es in Benchmarks wie mathematischer Logik (MATH: 56,2 Punkte) und Grundschulrechnung (GSM8K: 84,5 Punkte) viele Modelle mit 2 bis 7 Milliarden Parametern. Die Schlüsselinnovation besteht darin, dass HRM-Text den herkömmlichen Ansatz großer Modelle aufgibt, bei dem einfach mehr Parameter, Daten und Rechenleistung hinzugefügt werden. Stattdessen wurde die Modellarchitektur (schichtweise rekursive Berechnung) sowie das Trainingsziel angepasst, um mit sehr wenigen Daten (nur 40 Milliarden einzigartige Token – das sind 1/225 der Anzahl von Llama3.2) erfolgreich vorab zu trainieren. HRM-Text dient als „Konzeptbeweis“ dafür, dass Architekturinnovationen auch bei begrenzten Ressourcen zu höherer Effizienz führen können. Selbst der Turing-Preisträger Yoshua Bengio hat ähnliche Forschungen durchgeführt, was neue Richtungen für die Entwicklung großer Modelle aufzeigt.

Detaillierte Analyse

1. Warum können kleine Modelle „mit weniger mehr erreichen“? – Anstelle von mehr Ressourcen kommt es auf effiziente Berechnung an

Der herkömmliche Ansatz bei großen Modellen lautet: Je größer, desto besser – mehr Parameter, mehr Daten, mehr Rechenleistung bedeutet höhere Intelligenz. HRM-Text geht jedoch den entgegengesetzten Weg: Mit nur 1 Milliarde Parametern, einem Trainingskostenaufwand von 1500 US-Dollar (viel günstiger als bei Modellen mit Millionen von Parametern) und sehr wenigen Daten erzielte es hervorragende Ergebnisse. Das Geheimnis liegt in der Optimierung der Recheneffizienz – es werden mehr effektive interne Berechnungen vor der Ausgabe durchgeführt, anstatt einfach die Anzahl der Parameter zu erhöhen. Stellen Sie sich vor: Mit denselben Zutaten kann ein gewöhnlicher Koch ein einfaches Gericht zubereiten, während ein talentierter Koch daraus etwas Exquisites macht; HRM-Text ist dieser „talentierte Koch“.

2. Architekturinnovation: Das Modell „denkt“ mehrmals vor der Ausgabe nach

Herkömmliche Transformer-Modelle arbeiten nach einem „Fließbandprinzip“ – die Eingaben werden nacheinander durch jede Schicht des Netzwerks geleitet, wobei jede Schicht nur einmal verarbeitet wird. HRM-Text verwendet eine iterative Vorgehensweise:

  • Es besteht aus zwei Modulen: Hochschichten („H“), die langsam aktualisiert werden und für den globalen Kontext zuständig sind (z. B. das Erinnern an das Kernproblem), sowie **Niederschichten („L“), die schnell aktualisiert werden und für lokale Anpassungen verantwortlich sind (z. B. die Korrektur von Berechnungsschritten).
  • Vor jeder Ausgabe führt das Modell diese beiden Module mehrmals durch, um den internen Zustand zu aktualisieren (z. B. vor der Vorhersage eines Wortes werden 6 L-Updates und 2 H-Updates durchgeführt).

Um zu verhindern, dass die Iterationen zum Zusammenbruch des Modells führen (z. B. weil die Ergebnisse unkontrolliert werden), wurden zwei Methoden eingesetzt:

  • MagicNorm: Kontrolle der Datenfluktuationen während der Berechnungen, um ein Ausbrechen der Ergebnisse zu vermeiden.
  • Progressive Verantwortungszuweisung: Zu Beginn des Trainings ist das Modell nur für die neuesten Berechnungsschritte verantwortlich; erst nach Stabilisierung werden auch frühere Schritte berücksichtigt (ähnlich wie ein Lehrer, der zuerst die aktuellen Hausaufgaben korrigiert und dann schrittweise die vorherigen überprüft).

3. Trainingsziel: Nur das Beantworten von Fragen – nicht das Nachahmen

Herkömmliche Modelle werden darauf trainiert, alle möglichen nächsten Wörter eines Textes vorherzusagen (einschließlich der Frage selbst), während HRM-Text nur die Fehler bei der Antwort berechnet. Bei einem Mathematikauftrag muss es nicht lernen, wie die Frage formuliert wird, sondern nur, wie die richtige Lösung erreicht wird. Zudem verwendet HRM-Text PrefixLM, um das gesamte Problem vollständig zu verstehen (die Anweisungen sind beidseitig sichtbar), bevor die Antwort generiert wird. Dies ähnelt dem Verhalten eines Lehrers, der nur prüft, ob die Antwort korrekt ist – nicht, ob die Aufgabe abgeschrieben wurde – was das Training effizienter macht.

4. Schwächen und Zukunftsperspektiven: Starke Logikfähigkeiten, aber begrenztes Wissen – eine Aufteilung der Aufgaben

HRM-Text leistet hervorragende Leistungen bei logischen Aufgaben (z. B. Mathematikaufgaben), schneidet jedoch bei Tests, die umfangreiches Wissen erfordern (z. B. MMLU, die verschiedene Fachgebiete abdeckt), schlechter ab als größere Modelle. Der Grund ist einfach: Es verfügt über weniger Daten und weniger Parameter und kann daher nicht so viel Wissen speichern. Die zukünftige Richtung besteht darin, Logik und Wissen zu trennen – HRM-Modelle sollen sich auf die logischen Berechnungen konzentrieren, während das Wissen von externen Datenbanken oder Suchsystemen bereitgestellt wird (ähnlich wie beim menschlichen Denken). Das Team hat bereits frühe Ergebnisse in dieser Richtung erzielt, diese wurden jedoch noch nicht veröffentlicht.

5. Bedeutung für die Branche: Ein neuer Wettbewerbsbereich für große Modelle

Bisher konkurrierte die Branche darum, wer die größten Modelle mit der höchsten Rechenleistung entwickelt. HRM-Text zeigt, dass auch die Optimierung des Rechenprozesses zu besseren Ergebnissen führen kann – ähnlich wie in der Automobilindustrie, wo nicht nur die Motorleistung gesteigert wird, sondern auch die Struktur optimiert wird, um Effizienz zu verbessern. Die Forschungen von Yoshua Bengio unterstreichen diese Richtung und könnten dazu führen, dass mehr kleine Teams an der Innovation teilnehmen, ohne dass sie sich auf den „Wettlauf um hohe Investitionen“ konzentrieren müssen.

Fazit

HRM-Text soll nicht die großen Modelle ersetzen, sondern einen neuen Weg aufzeigen, der kostengünstig und effizient ist. Sein Wert liegt nicht darin, ein perfektes Produkt zu sein, sondern darin, zu zeigen, dass Fortschritte bei großen Modellen auch durch innovative Architektur und Optimierung des Rechenprozesses möglich sind. Dies ist ein wichtiger Schritt, um den „Einheitsdenken“ in der Branche zu durchbrechen.