Es una técnica de optimización que almacena los resultados de los prompts que ya han sido procesados por un LLM. Si se recibe un prompt idéntico o muy similar en el futuro, se puede devolver la respuesta almacenada en caché en lugar de volver a procesarla, lo que ahorra tiempo y costos computacionales. Facilita respuestas más rápidas y confiables sin sacrificar la fluidez, especialmente para preguntas frecuentes. Se combina con RAG y validadores para asegurar que la respuesta en caché siga siendo válida y relevante.