Es un método estructurado para investigar un incidente con el objetivo de identificar la causa fundamental del problema, en lugar de simplemente tratar los síntomas. En operaciones, baja el estrés del equipo a largo plazo al prevenir la recurrencia de los mismos fallos. Reduce los tiempos de caída y homologa las respuestas al generar aprendizajes profundos. Para que sea efectivo, se apoya en un registro detallado de logs y métricas, la idempotencia de los sistemas para poder replicar el problema de forma segura y controles de acceso claros.