RAG (Retrieval-Augmented Generation) es un patrón de arquitectura para LLMs que le da un súperpoder: recordar cosas que no estaban en su entrenamiento. ¿Cómo? Antes de que el modelo genere una respuesta, se realiza una búsqueda en una base de vectores o en un set de documentos (como PDFs, wikis internos o bases de conocimiento). El contexto relevante se le pasa al LLM como parte del prompt, y así la respuesta final combina la creatividad del modelo con la precisión de tu información real.
Esto reduce drásticamente las famosas “alucinaciones” y asegura que el asistente responda en línea con tu verdad corporativa, técnica o legal. Es la base de los chatbots inteligentes, copilotos internos, y asistentes que realmente entienden tu negocio. En resumen: el modelo pone el lenguaje, vos ponés los hechos.