Es una técnica de optimización que reduce significativamente el uso de memoria durante el entrenamiento de modelos de IA muy grandes. Lo logra al no almacenar todos los valores intermedios necesarios para el cálculo de gradientes; en su lugar, recalcula algunos de ellos durante el paso hacia atrás. Esto permite entrenar modelos más grandes o con lotes de datos más grandes en el mismo hardware. Es un atajo hacia la calidad que permite escalar los modelos sin requerir una inversión prohibitiva en GPUs, haciendo el entrenamiento más accesible.