On-call Rotation

Es un método para alinear los modelos de lenguaje con las preferencias humanas que sirve como una alternativa más simple y estable al aprendizaje por refuerzo con feedback humano (RLHF). En lugar de entrenar un modelo de recompensa separado, DPO utiliza un conjunto de datos de preferencias para ajustar directamente el modelo de lenguaje a través de una función de pérdida específica. Su impacto se nota en una mayor consistencia y en respuestas que se adhieren mejor a los formatos y políticas deseadas, convirtiendo las buenas intenciones de alineación en una práctica más escalable.

Atrás