Resumen del contenido principal
Esta noticia se centra en el “momento ChatGPT” de la ciencia de las proteínas: el ESM Cambrian (ESMC), desarrollado por el equipo de Alex Rives y actualmente el modelo base de proteínas open source más potente, ha sido lanzado oficialmente como código abierto. Este modelo ha superado el problema de la disminución de los beneficios en el entrenamiento de modelos al incorporar datos de macrogenómica, verificando la efectividad de la “ley de escala” (cuanto mayor es el modelo y más datos se utilizan, más rápidamente aumenta su capacidad). ESMC ha logrado avances significativos en el diseño de anticuerpos, la predicción de estructuras proteicas y el descubrimiento de nuevos sistemas de edición genética. Además, está relacionado con el plan del Biohub de invertir 500 millones de dólares en “células virtuales”, cuyo objetivo es utilizar IA y datos experimentales para construir modelos que puedan predecir el comportamiento celular, lo que finalmente podría llevar al avance en el tratamiento de enfermedades.
I. La ciencia de las proteínas también sigue la regla de “cuanto mayor, mejor”: la aplicación de la ley de escala
Puedes entender la “ley de escala” como algo que implica que cuantos más parámetros tenga el modelo y más datos de entrenamiento se utilicen, más probable es que haya un salto cualitativo en su capacidad (similar al cambio de ChatGPT de GPT-3 a GPT-4). Alex ya creía en 2018 que esta regla podía aplicarse a las proteínas:
- Las proteínas están compuestas por aminoácidos formando “cadenas”, y el modelo puede aprender sobre la estructura y función de las proteínas al predecir qué será el siguiente aminoácido en esa cadena.
- A diferencia de los modelos de lenguaje natural, las secuencias generadas aleatoriamente por un modelo de proteínas pueden ser proteínas legítimas, incluso si no tienen sentido (a diferencia de los errores de codificación en el lenguaje natural). Esto se debe a que las reglas de combinación de aminoácidos son fijas y el modelo puede aprender estas reglas.
- La lógica clave es que el contexto de los aminoácidos en una proteína (por ejemplo, qué aminoácidos están alrededor de otro) determina su estructura y función. El modelo puede “entender” la naturaleza de la proteína al analizar estos contextos, de manera similar a cómo entendemos el significado de las palabras a partir de su contexto.
II. Los datos de macrogenómica: un enfoque “antitradicional” para superar los límites
El modelo anterior, ESM2, enfrentó el problema de la disminución de los beneficios: a medida que el tamaño del modelo aumentaba y la potencia de cálculo crecía, el avance en sus resultados se ralentizaba. La clave para resolver este problema fue el uso de datos de macrogenómica, lo cual es completamente contrario al enfoque tradicional de la investigación biológica:
- Investigación biológica tradicional: se centra en un problema específico (por ejemplo, estudiar la función de un gen) y se repiten los experimentos bajo condiciones controladas.
- Datos de macrogenómica: se recogen muestras de diversas fuentes (desde fumarolas termales, hielo antártico, aguas profundas hasta el intestino humano), se secuencian todas juntas y cualquier secuencia proteica se utiliza. Estos datos son abundantes y variados, pero también son bastante desordenados (no se sabe de qué organismo provienen o incluso pueden ser fragmentos).
- Efecto: al incorporar datos de macrogenómica, la curva de escala de ESMC volvió a ser “regular”; el rendimiento de modelos más pequeños pudo predecir con precisión el comportamiento de modelos más grandes, lo que indica que el problema no era la falta de potencia de cálculo, sino la insuficiencia de datos.
III. Las fortalezas de ESMC: diseño de anticuerpos superando a AlphaFold y descubrimiento de nuevos sistemas de edición genética
Los avances de ESMC son numerosos, pero los más destacados son en el diseño de anticuerpos y el descubrimiento de estructuras y funciones:
- Diseño de anticuerpos: los anticuerpos son una herramienta crucial para el tratamiento de enfermedades (alrededor de una cuarta parte de los nuevos fármacos son anticuerpos), pero su diseño ha sido difícil. ESMC no utiliza la comparación de múltiples secuencias (para encontrar referencias similares); en cambio, busca directamente características proteicas aprendidas por el modelo y encuentra con éxito anticuerpos eficaces (como los anticuerpos monocatenarios scFv). Esto se debe a que el objetivo de la evolución de los anticuerpos es la diversidad (para combatir diversos virus), mientras que los métodos tradicionales basados en secuencias similares no son efectivos. ESMC ha capturado las características esenciales de los anticuerpos.
- Descubrimiento de estructuras y funciones: ESMC ha creado un mapa de 6800 millones de secuencias y predicho la estructura de 1100 millones de proteínas. El modelo también ha aprendido automáticamente patrones funcionales conocidos por los biólogos (como el “codo nucleofílico”, una estructura funcional clave), e incluso ha descubierto proteínas con distancias evolutivas grandes pero funciones relacionadas. Estos hallazgos son fruto del propio aprendizaje del modelo, sin necesidad de aportar conocimiento humano.
IV. De las proteínas a las células virtuales: ¿qué pretende el Biohub con sus 500 millones de dólares?
El ambicioso objetivo del equipo de Alex no se limita a las proteínas, sino a construir “células virtuales” que utilicen modelos de IA para simular el comportamiento celular y predecir los efectos de nuevas intervenciones (como fármacos):
- Actualidad: los modelos de “células virtuales” actuales solo pueden ajustarse a datos existentes y no pueden predecir situaciones nuevas (por ejemplo, cómo reaccionarán las células con un nuevo fármaco).
- Objetivo: hacer que el modelo pueda predecir resultados de experimentos nunca antes realizados, al igual que predice estructuras proteicas. Por ejemplo, al introducir un nuevo fármaco, el modelo podría indicarnos cómo reaccionarán las células.
- Plan de 500 millones de dólares: 400 millones se destinarán a la producción de datos internos y el desarrollo tecnológico, y 100 millones a colaboraciones externas. La estrategia central es la “intervención biológica a escala”: observar las células bajo la mayor cantidad posible de condiciones diferentes (por ejemplo, con distintos fármacos o cambios en el entorno) para acumular suficientes datos y que el modelo aprenda las reglas de su comportamiento.
V. Los desafíos futuros y un llamado a la comunidad: la potencia de cálculo es insuficiente; utilicemos ESMC juntos
Aunque ESMC es poderoso, todavía hay desafíos:
- Límite de potencia de cálculo: Alex señala que la capacidad de cálculo es el mayor obstáculo no obvio; con un aumento del 100% en la potencia de cálculo, ESMC sería aún mejor, y también serían necesarios más datos.
- Potencial de los datos: actualmente hay alrededor de 100 mil millones de secuencias proteicas disponibles, lo cual está lejos de ser todo el conjunto posible, y el problema de la disminución de los beneficios aún no ha llegado.
- Llamado a la comunidad: ESMC se ha lanzado como código abierto bajo un acuerdo del MIT, con la esperanza de que investigadores de todo el mundo lo utilicen en sus estudios. El equipo de Alex no tiene como objetivo desarrollar fármacos, sino crear herramientas que impulsen el avance científico y, finalmente, curar enfermedades.
En resumen, esta noticia nos muestra que la IA está transformando completamente la ciencia de las proteínas, desde la predicción de estructuras hasta el diseño de fármacos y la simulación del comportamiento celular, lo que podría llevar a más avances revolucionarios en el campo médico. El lanzamiento de ESMC como código abierto permite que más personas participen en esta revolución.