虎嗅

**Nuevo modelo de arquitectura HRM-Text bate récords de innovación: 1 billón de parámetros y un costo de 1000 dólares. Incluso el ganador del Premio Turing participó personalmente en su desarrollo.**

原文:新架构模型HRM-Text创新纪录,1B参数、1000美元,图灵奖得主都亲自下场了

Resumen del contenido central

HRM-Text es un modelo de IA con 1000 millones de parámetros (1B), cuyo costo de entrenamiento fue de solo 1500 dólares (16 tarjetas gráficas H100 utilizadas durante menos de dos días). Sin embargo, superó a muchos modelos con entre 2000 y 7000 millones de parámetros en pruebas de referencia como el razonamiento matemático (MATH: 56.2 puntos) y las operaciones aritméticas básicas (GSM8K: 84.5 puntos). La clave de su innovación radica en abandonar la tradicional estrategia de aumentar los parámetros, el volumen de datos y la potencia de cálculo. Mediante un rediseño de la arquitectura del modelo (cálculo recursivo por capas) y objetivos de entrenamiento específicos (centrados en las respuestas), logró ser preentrenado desde cero con muy pocos datos (solo 40 mil millones de tokens únicos, lo que representa 1/225 del volumen de datos utilizado por Llama3.2). Su propósito es servir como una verificación de concepto, demostrando que la innovación en la arquitectura puede mejorar la eficiencia incluso con recursos limitados. Incluso Yoshua Bengio, ganador del Premio Turing, ha seguido investigaciones similares, abriendo nuevas direcciones para el desarrollo de modelos de IA grandes.

Desglose detallado

1. ¿Por qué un modelo pequeño puede superar a uno grande? No se trata de acumular recursos, sino de utilizar métodos más eficientes

La lógica tradicional de los modelos grandes es que cuanto mayor, mejor: más parámetros, más datos y más potencia de cálculo significan mayor inteligencia. Pero HRM-Text sigue un enfoque diferente: con solo 1000 millones de parámetros (menos que muchos otros modelos), un costo de 1500 dólares (mucho más económico que los modelos de gran escala) y muy pocos datos, ha obtenido excelentes resultados. El secreto reside en optimizar la eficiencia del cálculo, permitiendo que un número limitado de parámetros realicen un mayor número de operaciones internas efectivas antes de generar la respuesta, en lugar de simplemente aumentar su cantidad. Es como un chef que, con los mismos ingredientes, crea una comida exquisita mediante un proceso meticuloso; HRM es ese “chef excepcional”.

2. Innovación en la arquitectura: hacer que el modelo “pense más” antes de generar la respuesta

Los modelos Transformer tradicionales funcionan de manera secuencial, donde cada capa del sistema procesa los datos de forma independiente. HRM-Text utiliza un enfoque iterativo:

  • Cuenta con dos módulos: H (de actualización lenta, responsable del contexto global, como recordar el aspecto central del problema) y L (de actualización rápida, encargada de las correcciones locales).
  • Antes de generar una respuesta, los dos módulos se actualizan repetidamente (por ejemplo, antes de predecir una palabra, se realizan 6 actualizaciones en L y 2 en H), lo que equivale a hacer que el modelo “considere las opciones varias veces” antes de dar una respuesta.

Para evitar que el proceso iterativo cause problemas (como resultados incoherentes), HRM-Text utiliza dos técnicas:

  • MagicNorm: controla las fluctuaciones de los datos durante el cálculo para mantener la estabilidad de los resultados.
  • Responsabilidad progresiva: al principio del entrenamiento, el modelo solo se responsabiliza por los pasos más recientes; luego, esta responsabilidad se extiende a etapas anteriores, similar a cómo un profesor corrige primero las tareas más actuales antes de revisar las anteriores.

3. Objetivos de entrenamiento: enfocarse en las respuestas, no en la reproducción de texto

Mientras que los modelos tradicionales deben predecir cada palabra del texto (incluido el problema entero), HRM-Text solo se concentra en calcular las partes correctas de las respuestas. Por ejemplo, al entrenar para resolver problemas matemáticos, no necesita aprender cómo redactarlos, sino cómo encontrar la solución correcta. Además, utiliza PrefixLM para que el modelo entienda completamente el problema (incluyendo instrucciones y preguntas), lo que permite generar respuestas más precisas. Esto es similar a un profesor que solo verifica si la respuesta es correcta, sin importar si se ha copiado el texto.

4. Debilidades y futuro: potente en razonamiento pero con conocimientos limitados

HRM-Text funciona bien en tareas de razonamiento (como problemas matemáticos), pero no tan bien en pruebas que requieren un amplio conocimiento (como MMLU, que evalúa conocimientos multidisciplinarios). La razón es simple: tiene pocos datos y parámetros, por lo que no puede almacenar mucha información. El futuro de estos modelos es desacoplar el razonamiento del almacenamiento de conocimientos, permitiendo que se enfoquen exclusivamente en las tareas de cálculo, mientras que los sistemas externos (bases de datos o motores de búsqueda) se encargan del almacenamiento de información. El equipo ya ha logrado avances en esta dirección, aunque no los ha hecho públicos.

5. Implicaciones para la industria: abre nuevas posibilidades en el campo de los modelos grandes

Hasta ahora, la competencia en el sector de las IA grandes se centraba en aumentar el número de parámetros y la potencia de cálculo, lo que elevaba los costos. HRM-Text demuestra que también es posible mejorar el rendimiento optimizando los procesos internos del modelo. Esto es similar a cómo, en la industria automotriz, no solo se puede aumentar el tamaño del motor, sino también mejorar la eficiencia mediante mejoras en la arquitectura. La investigación de Yoshua Bengio respalda esta idea, lo que podría incentivar a equipos más pequeños a innovar sin depender tanto del volumen de recursos invertidos.

Conclusión

HRM-Text no busca reemplazar a los modelos grandes, sino ofrecer una alternativa más económica y eficiente. Su valor radica en demostrar que el progreso de estos modelos no solo se puede lograr mediante un aumento de su tamaño, sino también mediante la innovación en sus métodos de cálculo. Esto representa un cambio importante en la industria, ya que rompe con la idea de que el tamaño es el único factor determinante del rendimiento.