Mars 2026 • Lecture recherche
Reasoning with Sampling: Your Base Model is Smarter Than You Think
Karan et Du s’interrogent sur ce qui relève vraiment du post-entraînement par RL dans les modèles de raisonnement, et montrent qu’une partie comparable des gains peut être obtenue à l’inférence, par échantillonnage itératif sur le modèle de base, sans données annotées ni phase d’apprentissage supplémentaire.
De quoi s’agit-il ?
Les « modèles de raisonnement » frontière s’appuient souvent sur le renforcement après pré-entraînement. Une grande partie de la littérature cherche à isoler les comportements qui émergent au RL et qui ne sont pas déjà dans le modèle de base. Ici, les auteurs inversent la question : peut-on révéler des capacités de raisonnement proches du RL en ne faisant qu’échantillonner au moment de l’inférence ? Ils proposent un algorithme simple, inspiré du MCMC pour tirer des échantillons d’une distribution « affûtée », en s’appuyant sur les probabilités du modèle de base lui-même. Aucun entraînement, jeu de données curaté ou vérificateur externe n’est requis, ce qui élargit le champ d’application au-delà des tâches à réponse facilement vérifiable.
Résultats clés
Gains proches du RL, sans fine-tuningSur plusieurs modèles de base, l’échantillonnage itératif améliore fortement le raisonnement sur des tâches en un tirage (MATH500, HumanEval, GPQA), avec des niveaux proches — parfois supérieurs — à ceux obtenus par post-entraînement RL.
Diversité préservéeContrairement à une partie du RL post-training, leur approche évite l’effondrement de diversité lorsqu’on génère plusieurs réponses : les échantillons restent plus variés.
Pas de dépendance à un vérificateurLa méthode ne repose pas sur un classifieur ou scoreur externe, ce qui la rend utilisable là où la vérification automatique est difficile.
Lien avec le MCMCL’intuition technique repose sur des techniques de type Markov chain Monte Carlo pour échantillonner des distributions resserrées à partir du modèle brut.
Pourquoi c’est pertinent pour IAMI
Pour des usages matching, recommandation et agents, la frontière entre « capacité du modèle » et « recette d’inférence » compte autant que le fine-tuning. Ce travail rappelle qu’avant d’alourdir la chaîne d’entraînement, il peut être rentable d’explorer des stratégies d’échantillonnage au bord du modèle de base — surtout lorsque les signaux de récompense ou les vérificateurs sont partiels ou coûteux.
Sources
Référence de l’article : Karan, A., Du, Y. — Reasoning with Sampling: Your Base Model is Smarter Than You Think. arXiv:2510.14901.
Février 2026 • Lecture recherche
Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs
Une équipe Cohere / Cohere For AI (Ahmadian, Cremer, Gallé et al.) remet en cause l’usage systématique du PPO (Proximal Policy Optimization) dans l’alignement des LLM par renforcement à partir de retours humains (RLHF). Les auteurs montrent qu’une approche plus simple, de type REINFORCE, surpasse le PPO tout en réduisant coût et complexité.
De quoi s’agit-il ?
En RLHF, l’étape d’optimisation par renforcement sert à maximiser le score d’un modèle de récompense entraîné sur des préférences humaines. Le PPO est souvent présenté comme la méthode de référence, mais il impose de charger jusqu’à quatre modèles (générateur, référence, critique, récompense), un réglage délicat et une formulation par token. Les auteurs proposent de revenir aux bases : modéliser la génération entière comme une seule action et utiliser l’estimateur REINFORCE (ou sa variante multi-échantillons RLOO — REINFORCE Leave-One-Out) pour optimiser directement le retour en fin de séquence.
Résultats clés
REINFORCE surpasse le PPOLe policy gradient « vanilla » REINFORCE dépasse systématiquement le PPO (de 3,2 % à 20,3 % en win-rate selon les jeux de données et modèles).
RLOO bat les baselinesRLOO, extension multi-échantillons de REINFORCE, surpasse PPO, DPO et RAFT sur tous les datasets et modèles testés (TL;DR Summarize, Anthropic HH, Pythia, Llama).
Pas besoin de modéliser les séquences partiellesTraiter chaque token comme une action (comme en PPO) n’est pas nécessaire ; modéliser la génération complète comme une seule action suffit et simplifie l’étape RL.
RLOO plus robuste que RAFTRLOO résiste mieux au bruit sur les récompenses et à la sensibilité à la pénalité KL que les méthodes de type RAFT (fine-tuning sur le meilleur échantillon uniquement).
Pourquoi c’est pertinent pour IAMI
IAMI s’appuie sur des modèles de langage et des signaux (feedback, préférences) pour le matching, la recommandation et l’automatisation. Comprendre quelles méthodes d’alignement sont à la fois efficaces et peu coûteuses nous aide à concevoir des pipelines d’apprentissage plus simples et plus robustes. Ce travail illustre qu’en RLHF, la simplicité (REINFORCE, RLOO) peut l’emporter sur des schémas plus lourds comme le PPO.
Sources
Référence de l’article : Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A., Hooker, S. — Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. Cohere / Cohere For AI. arXiv:2402.14740.
Janvier 2026 • Lecture recherche
What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning
Une étude récente (Jia, Zhang et al., Dartmouth College) s’intéresse à l’ordre des données lors de l’entraînement des grands modèles de langage (LLM) pour le raisonnement mathématique. Les résultats remettent en question l’idée qu’une stratégie de « curriculum learning » (du facile au difficile, ou l’inverse) serait universellement meilleure.
De quoi s’agit-il ?
Le curriculum learning consiste à ordonner les exemples d’entraînement (par exemple du plus simple au plus complexe, ou l’inverse) pour améliorer l’apprentissage. En IA, on se demande souvent s’il vaut mieux présenter d’abord les problèmes faciles puis les difficiles, ou l’inverse. L’équipe de Dartmouth a mené des expériences contrôlées sur des benchmarks de raisonnement mathématique avec plusieurs modèles (Llama3.1-8B, Mistral-7B, Gemma3-4B) pour répondre à trois questions : quand le curriculum learning aide-t-il ? Quelle direction (facile→difficile ou difficile→facile) est la plus efficace ? Et est-ce que ça dépend des métriques utilisées ?
Cinq dimensions de difficulté
Les auteurs décomposent la « difficulté » des exemples en cinq dimensions complémentaires : la difficulté du problème, la surprisal du modèle, la marge de confiance, l’incertitude prédictive et la variabilité des décisions. Ils montrent que :
- Aucune stratégie n’est universelle — l’efficacité du curriculum (facile→difficile ou l’inverse) dépend à la fois des capacités du modèle et de la complexité de la tâche.
- Les gains dépendent du niveau de difficulté — selon la tâche, ce sont tantôt les exemples faciles, tantôt les plus difficiles, qui apportent le plus.
- Deux types de curricula — les curricula alignés sur la tâche façonnent les représentations finales et la généralisation ; les curricula basés sur l’état interne (confiance, incertitude) modulent plutôt la façon dont le modèle « hésite » ou se trompe.
- Mettre l’accent sur les exemples incertains (où le modèle hésite) peut encore améliorer les résultats.
Pourquoi c’est pertinent pour IAMI
Chez IAMI, nous nous appuyons sur des modèles et des données pour le matching, la recommandation et l’automatisation. Comprendre comment l’ordre et la difficulté des données influencent les performances des modèles nous aide à concevoir des pipelines d’entraînement ou de fine-tuning plus robustes et à rester alignés avec l’état de l’art. Suivre ce type de travaux fait partie de notre veille sur les avancées en intelligence artificielle.
Sources
Référence de l’article : Jia, Y., Zhang, C., Diao, X., Yuan, X., Ouyang, Z., Ma, C., Vosoughi, S. — What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning. Dartmouth College. arXiv:2510.19099.