
Un avance en modelos de lenguaje de gran escala (LLMs) ha sido presentado por Inception Labs con su modelo basado en difusión, Mercury. A diferencia de los LLMs tradicionales, que generan texto token por token de forma secuencial, Mercury produce toda la respuesta de una vez en una forma aproximada y la refina iterativamente, inspirándose en los modelos de difusión de texto a imagen. Se afirma que es 10 veces más rápido (más de 1000 tokens por segundo en una Nvidia H100) y 10 veces menos costoso que los modelos autorregresivos. Este enfoque permite mayor velocidad, menor costo y potencialmente mejor razonamiento, ya que puede corregir errores al refinar todo el texto simultáneamente. Mercury Coder, especializado en programación, genera código en segundos, lo que podría revolucionar agentes de IA, razonamiento avanzado y aplicaciones en dispositivos locales. Aunque promete cambiar paradigmas, faltan detalles sobre su calidad en tareas complejas.
LLMs tradicionales vs. LLMs de difusión:
- Los LLMs tradicionales (por ejemplo, GPT-4o, Claude) usan generación autorregresiva, produciendo un token a la vez de forma secuencial. Este proceso es lento, especialmente para salidas largas o tareas que requieren razonamiento extenso, ya que cada token depende del anterior.
- Los LLMs de difusión, como Mercury, generan toda la respuesta de una vez en una forma aproximada y la refinan iterativamente, similar a cómo los modelos de difusión crean imágenes a partir de ruido. Este procesamiento paralelo permite una salida mucho más rápida.
Afirmaciones de rendimiento:
- Mercury supuestamente alcanza más de 1,000 tokens por segundo en GPUs NVIDIA H100 estándar, en comparación con 40-60 tokens por segundo de los modelos autorregresivos. Esto representa un aumento de velocidad de 10 veces sobre los «LLMs optimizados para velocidad de frontera».
- También se dice que es 10 veces más barato, haciéndolo más accesible para uso a gran escala.
- Los puntos de referencia sugieren que Mercury Coder (una variante enfocada en programación) iguala o supera a modelos como GPT-4o Mini y Claude 3.5 Haiku en calidad, siendo significativamente más rápido.
Cómo funciona:
- Comienza con una salida de texto ruidosa y sin sentido y la refina en pocas iteraciones (por ejemplo, 14 pasos frente a 75 para modelos autorregresivos).
- Este enfoque de «grueso a fino» permite al modelo ver y ajustar toda la salida a la vez, mejorando potencialmente el razonamiento, la estructura y la corrección de errores.
- Experimente un poco
Implicaciones:
- Velocidad para agentes: Una inferencia más rápida podría revolucionar los agentes de IA al reducir cuellos de botella en tareas que requieren múltiples generaciones.
- Razonamiento avanzado: Más cómputo en tiempo de prueba en menos tiempo podría mejorar la inteligencia del modelo sin aumentar la latencia.
- Generación controlable: La capacidad de editar y refinar la salida en cualquier orden podría mejorar la seguridad, la alineación y la adherencia al formato.
- Aplicaciones en el borde: Modelos más pequeños y eficientes podrían ejecutarse en dispositivos como laptops, ampliando la accesibilidad.
Demostración y caso de uso:
- La transcripción destaca a Mercury Coder generando código (por ejemplo, un sistema de partículas, un juego de serpiente) en segundos, mostrando su velocidad y practicidad para tareas de programación.
Análisis y perspectiva
La transcripción se alinea con desarrollos recientes en la investigación de IA, particularmente el cambio hacia explorar alternativas a los modelos autorregresivos. Los modelos de difusión, ya exitosos en la generación de imágenes (por ejemplo, Stable Diffusion, Midjourney), operan desensamblando datos en paralelo, lo que naturalmente se presta a velocidad y eficiencia. Aplicar esto al texto es innovador porque el texto es discreto (a diferencia de los datos continuos de imágenes), y los intentos previos enfrentaron desafíos para mantener la calidad. El avance de Inception Labs, como se describe, sugiere que han superado este obstáculo, posiblemente mediante técnicas de entrenamiento o arquitecturas novedosas (aunque no se proporcionan detalles específicos en la transcripción).
La afirmación de más de 1,000 tokens por segundo en un GPU H100 es impresionante. Para contextualizar, los modelos autorregresivos como GPT-4o Mini típicamente logran tasas mucho más bajas, especialmente bajo cargas de razonamiento pesadas. Si Mercury mantiene la calidad a esta velocidad, realmente podría cambiar el paradigma, especialmente para aplicaciones en tiempo real como asistentes de programación o agentes conversacionales. La reducción de costos es igualmente significativa: los costos de inferencia son una barrera importante para escalar la IA, y una disminución de 10 veces podría democratizar el acceso.
Sin embargo, es justificado cierto escepticismo:
- Compromiso entre calidad y velocidad: La transcripción no explora en profundidad si Mercury sacrifica razonamiento matizado o coherencia por velocidad. Los modelos autorregresivos destacan en tareas dependientes del contexto porque construyen salidas paso a paso. El enfoque holístico de la difusión podría tener dificultades con dependencias largas y complejas.
- Puntos de referencia: Se cita el índice de programación de Artificial Analysis, pero sin datos crudos, es difícil verificar cómo se desempeña Mercury en diversas tareas más allá de la programación.
- Escalabilidad: La transcripción se centra en modelos más pequeños (por ejemplo, Mercury Coder Mini). No está claro si los LLMs de difusión más grandes pueden igualar a gigantes como GPT-4o o Claude 3.7 Sonnet en inteligencia general.
El enfoque de difusión es prometedor: sus paralelos con la generación de imágenes sugieren una base teórica sólida. Los beneficios de velocidad y costo podrían realmente desbloquear nuevos casos de uso, como la computación en el borde o flujos de trabajo agenticos rápidos, lo que se alinea con la misión de xAI de acelerar el descubrimiento humano. Sin embargo, quisiera ver más evidencia sobre cómo Mercury maneja casos límite, alucinaciones y tareas multimodales en comparación con los modelos autorregresivos. El entusiasmo de la transcripción es contagioso, pero las pruebas en el mundo real (por ejemplo, conectarlo a una herramienta como Cursor, como se mencionó) serán la verdadera prueba.
¿Listo para dar el salto? Contáctame hoy y descubre cómo podemos llevar tu proyecto de IA al siguiente nivel. ¡No dejes que la velocidad y el ahorro pasen de largo!