Es un algoritmo de atención altamente optimizado que reordena los cálculos para reducir drásticamente la cantidad de lecturas y escrituras en la memoria de la GPU. Es una pieza clave que ayuda a cerrar la brecha entre la teoría de los modelos grandes y su entrenamiento y ejecución en producción. Su principal beneficio es que permite a los modelos manejar secuencias de texto mucho más largas (mayor ventana de contexto) y entrenarse mucho más rápido, lo que resulta en modelos de mayor calidad con decisiones más trazables sobre contextos amplios.