homeSistemas AgénticosModelos de Interacción Nativos: Revolucionando la Colaboración Humano-IA

Thinking Machines Lab presenta modelos que procesan audio, video y texto en tiempo real, superando barreras de colaboración.

Modelos de Interacción Nativos: Revolucionando la Colaboración Humano-IA

Thinking Machines Lab anuncia un avance en inteligencia artificial: modelos de interacción nativos que permiten una comunicación fluida en tiempo real a través de audio, video y texto. Estos modelos superan las limitaciones de los sistemas tradicionales al integrar la interactividad directamente en su arquitectura, logrando un rendimiento de vanguardia en inteligencia y capacidad de respuesta. Descubre cómo esta tecnología transforma la colaboración humano-AI.

#Agentes#Automatización#Contexto#Habilidades#LLM
Modelos de Interacción Nativos: Revolucionando la Colaboración Humano-IA

El Fin de la Conversación con Turnos: Llegan los Modelos de Interacción en Tiempo Real

Durante años, la interacción con los modelos de inteligencia artificial más avanzados se ha asemejado a un juego de tenis por correo: un jugador envía un mensaje, espera, y luego recibe una respuesta. Este modelo de turnos, aunque funcional para tareas autónomas, ha creado un cuello de botella fundamental en la colaboración humano-máquina. Los laboratorios de IA han priorizado el trabajo autónomo, pero el trabajo real y complejo—ya sea en programación, diseño o investigación—requiere un flujo constante de aclaraciones, retroalimentación y correcciones. Como señala el paper de METR (2025) sobre la capacidad de los modelos para completar tareas largas, y la propia ficha técnica de modelos frontera como Anthropic, las interfaces sincrónicas e interactivas no han mostrado beneficios claros; a menudo se perciben como demasiado lentas. La solución, sin embargo, no es abandonar la interactividad, sino redefinirla por completo.

"La comunicación mejora con la copresencia, la contemporaneidad y la simultaneidad." — Clark H. y Brennan S., "Grounding in Communication", 1991

Thinking Machines Lab ha presentado una vista previa de investigación de lo que denominan "Modelos de Interacción" (Interaction Models). Se trata de una arquitectura que integra la interactividad como una capacidad nativa del modelo, no como un añadido externo. El objetivo es emular la fluidez de una conversación humana: hablar, escuchar, ver, mostrar e interrumpir en tiempo real, sin las rígidas barreras de los sistemas actuales.

El Cuello de Botella de la Colaboración

Los interfaces actuales, basados en turnos, crean un canal de comunicación muy estrecho. Los modelos comerciales frontera experimentan la realidad en un único hilo: esperan a que el usuario termine su entrada y su percepción se congela durante el proceso de generación. Esto contrasta radicalmente con la forma en que los humanos colaboran. Mientras una persona habla, la otra asiente, interrumpe para hacer una aclaración o reacciona a un gesto. Esta sincronía es imposible con los sistemas tradicionales.

Existen ejemplos de modelos más pequeños y especializados que han explorado esta vía, como Moshi, PersonaPlex, Nemotron VoiceChat o GPT-Realtime-Translate. Sin embargo, estos suelen depender de "arneses" externos, como la detección de actividad de voz (VAD), para gestionar la interactividad. Como argumentó Richard Sutton en su influyente artículo "The Bitter Lesson" (2019), los métodos que escalan con el cómputo disponible tienden a imponerse a largo plazo. La lección aquí es clara: la interactividad no puede ser un añadido; debe ser parte intrínseca del modelo para escalar adecuadamente con la inteligencia.

La Arquitectura: Un Diálogo Constante en Dos Planos

El enfoque de Thinking Machines Lab se asemeja a los sistemas utilizados en robótica o vehículos autónomos, donde la percepción y la acción son continuas. El sistema se compone de dos elementos clave:

  • Modelo de Interacción: Es el que mantiene un intercambio constante y bidireccional con el usuario, procesando audio, video y texto de forma continua. Está diseñado para ser consciente del tiempo y gestionar múltiples flujos de entrada y salida simultáneamente.
  • Modelo de Fondo (Background Model): Un modelo más profundo y reflexivo al que el modelo de interacción delega tareas de razonamiento complejo o llamadas a herramientas. El modelo de interacción integra los resultados de vuelta en la conversación de manera fluida.

Ambos modelos son inteligentes por sí mismos, pero el modelo de interacción es lo suficientemente capaz como para mantener una conversación competitiva por sí solo. La arquitectura se basa en trabajos previos como Qwen-omni, KAME y MoshiRAG.

A detailed architectural diagram of an interaction model for AI. It shows two main blocks: an 'Interaction Model' and a 'Background Model'. The Interaction Model has continuous input streams for audio, video, and text, and outputs audio and text. It is connected to the Background Model via a delegation channel for deeper reasoning and tool calls. The diagram highlights time-aligned micro-turns (200ms chunks) and a persistent GPU memory session. The style is clean, technical, and uses a blue and gray color palette.
A detailed architectural diagram of an interaction model for AI. It shows two main blocks: an 'Interaction Model' and a 'Background Model'. The Interaction Model has continuous input streams for audio, video, and text, and outputs audio and text. It is connected to the Background Model via a delegation channel for deeper reasoning and tool calls. The diagram highlights time-aligned micro-turns (200ms chunks) and a persistent GPU memory session. The style is clean, technical, and uses a blue and gray color palette.

Características Clave del Modelo de Interacción

El modelo de interacción (TML-Interaction-Small, un MoE de 276B parámetros con 12B activos) introduce innovaciones que lo diferencian de todo lo visto hasta ahora:

  • Micro-turnos alineados en el tiempo: Procesa la entrada y genera la salida en fragmentos de 200ms. No existen límites de turno. Esto permite interrupciones, reacciones a estímulos visuales mientras se habla, o hablar mientras se escucha, eliminando la necesidad de arneses como el VAD.
  • Fusión temprana sin codificador: El audio se procesa como dMel, las imágenes como parches de 40x40 píxeles, y el decodificador de audio utiliza un flujo (flow head). Todo se entrena desde cero de manera conjunta.
  • Optimización de inferencia: Las sesiones de streaming mantienen una secuencia persistente en la memoria de la GPU, lo que permite una comunicación fluida y sin reinicios.

Resultados: La Frontera de la Inteligencia y la Interactividad

Los benchmarks presentados demuestran que el modelo no solo es interactivo, sino también extremadamente inteligente. La tabla siguiente muestra una comparativa con los modelos de interacción en tiempo real más avanzados del mercado.

BenchmarkTML-Interaction-SmallGPT-realtime-2.0 (minimal)Gemini-3.1-flash-live (minimal)Qwen 3.5 OMNI-plus-realtime
FD-bench V1.5 (Audio)77.846.854.339.0
Audio MultiChallenge APR (%)43.437.626.8-
IFEval (VoiceBench) Accuracy (%)82.181.767.680.3
IFEval Accuracy (%) - Texto89.789.685.883.4

Nota: Los valores en negrita indican el mejor resultado por fila. El modelo TML-Interaction-Small muestra un rendimiento líder en métricas de interactividad (FD-bench) y competitivo en benchmarks de inteligencia como IFEval.

El modelo no solo iguala, sino que supera a la competencia en métricas clave de interactividad como el FD-bench, que evalúa escenarios como interrupciones, habla simultánea y reacciones a sonidos de fondo. Además, en benchmarks de inteligencia y seguimiento de instrucciones como IFEval, se sitúa a la par de los modelos más grandes, demostrando que la interactividad no sacrifica la capacidad de razonamiento.

Nuevas Dimensiones de la Interactividad

Thinking Machines Lab ha desarrollado benchmarks internos que exploran capacidades que ningún otro modelo comercial puede realizar actualmente:

  • TimeSpeak: El modelo debe iniciar una conversación en un momento exacto (por ejemplo, "recuerda respirar hondo en 10 segundos"), evaluando tanto la precisión semántica como temporal.
  • CueSpeak: El modelo debe intervenir en el momento justo mientras el usuario está hablando, por ejemplo, para corregir un error de código o traducción.
  • Proactividad Visual (RepCount-A, ProactiveVideoQA, Charades): El modelo recibe un video en streaming y una instrucción de audio, y debe responder o actuar (contar repeticiones, responder una pregunta, decir 'start'/'stop') en el momento exacto en que ocurre un evento visual.

Estos benchmarks abren la puerta a aplicaciones completamente nuevas, desde asistentes de fitness que cuentan repeticiones en tiempo real hasta herramientas de edición de video que responden a comandos hablados mientras se visualiza el contenido.

Limitaciones y Hoja de Ruta

A pesar de los avances, el modelo presenta limitaciones. Las sesiones largas siguen siendo un desafío debido a la acumulación de contexto, aunque el sistema de streaming maneja bien sesiones cortas y medianas. El despliegue requiere una conectividad de red fiable y es sensible a retrasos. La seguridad y la alineación en este nuevo paradigma de interacción continua son áreas de investigación activa, para las cuales la compañía está recopilando feedback y abriendo convocatorias de becas.

El lanzamiento público está previsto para finales de 2026, con una vista previa de investigación limitada que ya está disponible para obtener retroalimentación. Thinking Machines Lab invita a la comunidad a unirse y contribuir a definir el futuro de la colaboración humano-máquina.