Similar al Prompt Injection, un ""jailbreak"" es un tipo de prompt diseñado específicamente para eludir las restricciones de seguridad y ética de un modelo de IA. El objetivo es engañar al modelo para que genere contenido que normalmente estaría prohibido. Reducir la vulnerabilidad a estos ataques es fundamental para asegurar la calidad y la seguridad de las respuestas, manteniendo decisiones trazables y alineadas con las políticas definidas. Se combate mediante el uso de bases vectoriales para detectar patrones maliciosos, filtros de contenido y evaluaciones automáticas constantes del comportamiento del modelo.