El Error Budget es un concepto central del enfoque SRE (Site Reliability Engineering) que pone números claros a una pregunta eterna: ¿cuánta inestabilidad podemos tolerar antes de tener que dejar de lanzar cosas nuevas? Si tu SLO (Service Level Objective) es, por ejemplo, 99,9 % de disponibilidad, eso implica un 0,1 % de margen de error: ese es tu presupuesto de fallos. Si lo estás usando bien, podés seguir lanzando features. Pero si bajás a 99,7 %, el budget se agotó, y el foco debe cambiar: menos novedades, más fiabilidad.
Este enfoque alinea a equipos de producto y operaciones alrededor de una métrica negociada, medible y transparente, evitando discusiones filosóficas del tipo “¿esto es suficientemente estable o no?”. El Error Budget transforma el uptime en una herramienta estratégica: una forma práctica de equilibrar innovación y estabilidad sin que uno canibalice al otro.