Bon matin!
Avez-vous déjà voulu prendre un modèle de langue et lui faire répondre exactement comme vous le souhaitez, sans avoir besoin d'une montagne de données ou d’exemples ?
Eh bien, OpenAI nous propose une nouvelle solution : le « Fine-Tuning par Renforcement » ou RFT, qui change notre manière de personnaliser les modèles d'IA. Plutôt que de réentraîner le modèle en lui donnant des exemples de ce que l'on attend en espérant qu'il apprenne de manière classique, on lui enseigne directement en récompensant les bonnes réponses et en pénalisant les mauvaises—un peu comme lorsqu'on dresse un chien, mais… avec moins de gâteries et plus de maths.
Voyons en détail comment le RFT se distingue du réentraînement classique, le « fine-tuning supervisé » !
Regardez la vidéo (ou lisez l’article ici):