Quiet Hiring

Es una optimización fundamental en la arquitectura de los Transformers (la base de los LLMs). Durante la generación de texto, el modelo realiza cálculos de atención que son costosos. El KV Cache almacena estos cálculos intermedios (las claves y valores) de los tokens ya generados, para no tener que recalcularlos en cada nuevo paso. Es la pieza clave que cierra la brecha entre la teoría de los Transformers y su uso práctico en producción, ya que reduce drásticamente el tiempo de inferencia y hace posible la generación de texto en tiempo real.

Atrás