Rlhf (Reinforcement Learning With Human Feedback)

Es una de las técnicas más importantes para alinear los modelos de IA con los valores y preferencias humanas. Ayuda a cerrar la brecha entre lo que el modelo es capaz de hacer teóricamente y lo que es útil y seguro en la práctica. El proceso implica que evaluadores humanos califiquen las respuestas del modelo, y este ""aprende"" de ese feedback para mejorar. Esto permite combinar de forma segura los datos internos con el criterio del modelo, asegurando que las respuestas no solo sean precisas, sino también apropiadas y fiables.

Atrás