Esta arquitectura es la base de la mayoría de los modelos de lenguaje modernos y describe una práctica fundamental en asistentes que buscan precisión sin sonar robóticos. Su principal función es reducir las respuestas genéricas y enfocar al modelo en ser verdaderamente relevante para el usuario, entendiendo el contexto de la conversación. Para lograrlo, suele implementarse en conjunto con bases de datos vectoriales y filtros por metadatos, lo que permite tomar decisiones claras, reducir la fricción en la interacción y entregar resultados sostenibles y de alta calidad para el usuario final.