Février 2026 • Lecture recherche
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Une équipe Cohere / Cohere For AI (Ahmadian, Cremer, Gallé et al.) remet en cause l’usage systématique du PPO (Proximal Policy Optimization) dans l’alignement des LLM par renforcement à partir de retours humains (RLHF). Les auteurs montrent qu’une approche plus simple, de type REINFORCE, surpasse le PPO tout en réduisant coût et complexité.
De quoi s’agit-il ?
En RLHF, l’étape d’optimisation par renforcement sert à maximiser le score d’un modèle de récompense entraîné sur des préférences humaines. Le PPO est souvent présenté comme la méthode de référence, mais il impose de charger jusqu’à quatre modèles (générateur, référence, critique, récompense), un réglage délicat et une formulation par token. Les auteurs proposent de revenir aux bases : modéliser la génération entière comme une seule action et utiliser l’estimateur REINFORCE (ou sa variante multi-échantillons RLOO — REINFORCE Leave-One-Out) pour optimiser directement le retour en fin de séquence.
Résultats clés
REINFORCE surpasse le PPO
Le policy gradient « vanilla » REINFORCE dépasse systématiquement le PPO (de 3,2 % à 20,3 % en win-rate selon les jeux de données et modèles).
RLOO bat les baselines
RLOO, extension multi-échantillons de REINFORCE, surpasse PPO, DPO et RAFT sur tous les datasets et modèles testés (TL;DR Summarize, Anthropic HH, Pythia, Llama).
Pas besoin de modéliser les séquences partielles
Traiter chaque token comme une action (comme en PPO) n’est pas nécessaire ; modéliser la génération complète comme une seule action suffit et simplifie l’étape RL.
RLOO plus robuste que RAFT
RLOO résiste mieux au bruit sur les récompenses et à la sensibilité à la pénalité KL que les méthodes de type RAFT (fine-tuning sur le meilleur échantillon uniquement).
Pourquoi c’est pertinent pour IAMI
IAMI s’appuie sur des modèles de langage et des signaux (feedback, préférences) pour le matching, la recommandation et l’automatisation. Comprendre quelles méthodes d’alignement sont à la fois efficaces et peu coûteuses nous aide à concevoir des pipelines d’apprentissage plus simples et plus robustes. Ce travail illustre qu’en RLHF, la simplicité (REINFORCE, RLOO) peut l’emporter sur des schémas plus lourds comme le PPO.
Sources
Référence de l’article :
- Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A., Hooker, S. — Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. Cohere / Cohere For AI. arXiv:2402.14740.
Lire l’article (arXiv)
Janvier 2026 • Lecture recherche
What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning
Une étude récente (Jia, Zhang et al., Dartmouth College) s’intéresse à l’ordre des données lors de l’entraînement des grands modèles de langage (LLM) pour le raisonnement mathématique. Les résultats remettent en question l’idée qu’une stratégie de « curriculum learning » (du facile au difficile, ou l’inverse) serait universellement meilleure.
De quoi s’agit-il ?
Le curriculum learning consiste à ordonner les exemples d’entraînement (par exemple du plus simple au plus complexe, ou l’inverse) pour améliorer l’apprentissage. En IA, on se demande souvent s’il vaut mieux présenter d’abord les problèmes faciles puis les difficiles, ou l’inverse. L’équipe de Dartmouth a mené des expériences contrôlées sur des benchmarks de raisonnement mathématique avec plusieurs modèles (Llama3.1-8B, Mistral-7B, Gemma3-4B) pour répondre à trois questions : Quand le curriculum learning aide-t-il ? Quelle direction (facile→difficile ou difficile→facile) est la plus efficace ? Et est-ce que ça dépend des métriques utilisées ?
Cinq dimensions de difficulté
Les auteurs décomposent la « difficulté » des exemples en cinq dimensions complémentaires : la difficulté du problème, la surprisal du modèle, la marge de confiance, l’incertitude prédictive et la variabilité des décisions. Ils montrent que :
Aucune stratégie n’est universelle
L’efficacité du curriculum (facile→difficile ou l’inverse) dépend à la fois des capacités du modèle et de la complexité de la tâche.
Les gains dépendent du niveau de difficulté
Selon la tâche, ce sont tantôt les exemples faciles, tantôt les plus difficiles, qui apportent le plus.
Deux types de curricula
Les curricula alignés sur la tâche façonnent les représentations finales et la généralisation ; les curricula basés sur l’état interne (confiance, incertitude) modulent plutôt la façon dont le modèle « hésite » ou se trompe.
Mettre l’accent sur les exemples incertains
(où le modèle hésite) peut encore améliorer les résultats.
Pourquoi c’est pertinent pour IAMI
Chez IAMI, nous nous appuyons sur des modèles et des données pour le matching, la recommandation et l’automatisation. Comprendre comment l’ordre et la difficulté des données influencent les performances des modèles nous aide à concevoir des pipelines d’entraînement ou de fine-tuning plus robustes et à rester alignés avec l’état de l’art. Suivre ce type de travaux fait partie de notre veille sur les avancées en intelligence artificielle.
Sources
Référence de l’article :
- Jia, Y., Zhang, C., Diao, X., Yuan, X., Ouyang, Z., Ma, C., Vosoughi, S. — What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning. Dartmouth College. arXiv:2510.19099.
Lire l’article (arXiv)