Más rápido que los tokens: el nacimiento de la difusión a nivel de bytes
La inteligencia artificial generativa ha dependido durante años de un paso intermedio: convertir el texto en tokens —esos caracteres quebradizos fragmentos llamados subword tokens— para poder operar. Pero los modelos a nivel de bytes, como el Byte Latent Transformer (BLT), demostraron que es posible trabajar directamente con la secuencia cruda de bytes, evitando la tokenización y sus sesgos. Sin embargo, su talón de Aquiles siempre ha sido la eficiencia: procesar secuencias más largas implica un costo computacional mayor. Ahora, un equipo de investigadores de Stanford, la Universidad de Washington y FAIR at Meta ha presentado una solución que promete cambiar las reglas del juego.
En el artículo "Fast Byte Latent Transformer" (arXiv:2605.08044v1, mayo 2026), los autores introducen tres variantes que aceleran la generación de bytes mediante difusión discreta y especulación autoregresiva. Los resultados son contundentes: reducciones de ancho de banda de memoria de hasta el 92% sin sacrificar la calidad en tareas como traducción y generación de código.
"Nuestro enfoque combina la flexibilidad de los modelos byte con la paralelización de la difusión, logrando una eficiencia sin precedentes."
El artículo está liderado por Julie Kallini (Stanford) y Sriniv (Stanford) y Srinivasan Iyer (Meta), y representa un paso firme paso hacia modelos de lenguaje que entienden eluden por completo la tokenización, un viejo anhelo de la comunidad de procesamiento de lenguaje natural.
De la tokenización a los parches: el legado de BLT
El Byte Latent Transformer (BLT) original, publicado por el mismo grupo en 2025, agrupa bytes en parches de longitud variable según la entropía de la secuencia. Las regiones de alta entropía reciben parches cortos (de unos pocos bytes), mientras que las zonas predecibles se agrupan en parches más largos, de hasta un máximo de 8 bytes. De esta manera, una secuencia de N bytes se reduce a aproximadamente N/4 parches, que luego procesa un transformador global.
El modelo cuenta con tres componentes principales:
- Codificador local (ℰ) : convierte bytes en representaciones latentes.
- Transformador global (𝒢) : procesa los parches de manera autoregresiva.
- Decodificador local (𝒟) : genera los bytes de cada parche usando atención cruzada y autoregresión.
Esta arquitectura ya ofrecía ventajas frente a los modelos basados en subwords, pero la generación seguía siendo secuencial y costosa. El nuevo trabajo ataca exactamente ese cuello de estrangul.

BLT-D: difusión discreta para generar bloques de bytes en paralelo
La primera variante, **BLT Diffusion (BLT-D), reemplaza la decodificación autoregresiva tradicional por un proceso de difusión discreta a nivel de bloques. En lugar de generar byte por byte, el modelo toma un bloque completo de B bytes, lo corrompe una fracción de ellos con una máscara especial [MASK], y luego los desenmascara en paralelo iterativamente.
El decodificador se modifica para manejar esta corrupción: recibe tanto los bytes limpios y corrompidos, y aprende a predecir los valores originales.
El proceso de entrenamiento utiliza dos funciones de pérdida:
- ℒ_clean: la autoregresiva estándar sobre los bytes limpios.
- ℒ_mask: la pérdida de difusión sobre los bytes enmascarados, ponderada por el tiempo de ruido.
Durante la inferencia, el modelo recibe un prefijo limpio y un bloque de [MASK] al final. Luego, en pocos pasos (típicamente menos de B pasos), va reemplazando los tokens con mayor confianza. Se emplean estrategias como el umbral de confianza (α=0.7) o la eliminación por entropía acumulativa (EB).
| Parámetro | Modelo 1B | Modelo 3B |
|---|---|---|
| Parámetros globales | 1.28B | 2.82B |
| Parámetros del codificador | 19M | 26M |
| Parámetros del decodificador | 160M | 160M |
| Tamaño medio de parche | 4 bytes | 4 bytes |
| Pasos de entrenamiento | 240k | 480k |
Los experimentos muestran que BLT-D con bloques de 4 bytes alcanza rendimiento similar al BLT original, pero con menos del 50% de las evaluaciones del decodificador y un ahorro de ancho de banda superior al 50%. Con bloques de 16, la reducción llega al 92% en tareas de traducción, aunque con una ligera caída en generación de código.
BLT-S y BLT-DV: la especulación como aliada
Inspirados por la decodificación especulativa, los autores proponen dos extensiones que combinan lo mejor de ambos mundos.
BLT-S (Self-speculation) : el decodificador local genera un borrador de k bytes (4, 8 o 16) más allá del límite del parche actual, utilizando solo la última representación global. Luego, el modelo completo (el modelo completo verifica ese borrador con el modelo completo (codificador + global + decodificador). Si hay coincidencia exacta, acepta el prefijo; en caso contrario, se queda con el primer byte correcto. Así se garantiza al menos un byte por paso, pero a menudo se aceptan varios, acelerando la generación hasta un 77% de reducción de ancho de banda.
BLT-DV (Diffusion + Verification) : combina el borrador por difusión con una verificación autoregresiva posterior. Tras generar el bloque con difusión, el modelo lo verifica byte a byte usando las máscaras causales del decodificador original. Esta variante recupera la calidad perdida por la difusión pura, logrando reducciones de ancho de banda de hasta el 81% en traducción y compitiendo con el modelo base en código.
| Variante | Reducción de ancho de banda (3B) | Rendimiento en traducción |
|---|---|---|
| BLT-D-4 | >50% | ≈ BLT |
| BLT-D-16 | 87–92% | Competitivo |
| BLT-DV | Hasta 81% | Similar a BLT |
| BLT-S | Hasta 77% | Similar a BLT |
Ninguna de estas extension requiere cambios arquitectura ni entrenamiento adicional: todas las variantes aprovechan los mismos parámetros preentrenados.
Implicaciones y futuro de los modelos byte
Los resultados presentados en FLORES-101 (traducción francés-inglés y alemán-inglés) y en HumanEval/MBPP (generación de código) demuestran que es posible obtener generación de alta calidad con una fracción del costo computacional. La clave está en explotar la redundancia natural del lenguaje: los bytes predecibles pueden generarse en paralelo, mientras que los difíciles más complejos requieren atención secuencial.
El trabajo abre la puerta a modelos que operan directamente sobre bytes sin sacrificar eficiencia. Esto tiene implicaciones profundas para la equidad multilingüe (los modelos de subwords suelen favorecer idiomas con más datos), la robustez ante ruido y la comprensión a nivel de caracteres. Como señalan los autores, el camino hacia una tokenización cero está más cerca que nunca.
El código y los modelos estarán disponibles próximamente, y la comunidad espera con interés cómo estas técnicas escalan a modelos más grandes y tareas aún más exigentes. Mientras tanto, BLT-D, BLT-S y BLT-DV marcan un antes y un después en la generación de lenguaje a nivel de bytes.
