Es un proceso de pruebas de seguridad en el que un equipo de expertos (el ""red team"") simula ser un adversario para intentar encontrar y explotar las vulnerabilidades de un sistema de IA. Su objetivo es descubrir debilidades, sesgos o formas de engañar al modelo (como jailbreaks) antes de que lo haga un actor malintencionado. Se utiliza para obtener respuestas útiles y confiables en el mundo real, yendo más allá de las métricas de precisión estándar para evaluar la robustez y seguridad del modelo.