À propos de IAMI - Notre mission

Mars 2026 • Lecture recherche

Reasoning with Sampling: Your Base Model is Smarter Than You Think

Karan et Du s’interrogent sur ce qui relève vraiment du post-entraînement par RL dans les modèles de raisonnement, et montrent qu’une partie comparable des gains peut être obtenue à l’inférence, par échantillonnage itératif sur le modèle de base, sans données annotées ni phase d’apprentissage supplémentaire.

De quoi s’agit-il ?

Les « modèles de raisonnement » frontière s’appuient souvent sur le renforcement après pré-entraînement. Une grande partie de la littérature cherche à isoler les comportements qui émergent au RL et qui ne sont pas déjà dans le modèle de base. Ici, les auteurs inversent la question : peut-on révéler des capacités de raisonnement proches du RL en ne faisant qu’échantillonner au moment de l’inférence ? Ils proposent un algorithme simple, inspiré du MCMC pour tirer des échantillons d’une distribution « affûtée », en s’appuyant sur les probabilités du modèle de base lui-même. Aucun entraînement, jeu de données curaté ou vérificateur externe n’est requis, ce qui élargit le champ d’application au-delà des tâches à réponse facilement vérifiable.

Résultats clés

Gains proches du RL, sans fine-tuningSur plusieurs modèles de base, l’échantillonnage itératif améliore fortement le raisonnement sur des tâches en un tirage (MATH500, HumanEval, GPQA), avec des niveaux proches — parfois supérieurs — à ceux obtenus par post-entraînement RL.
Diversité préservéeContrairement à une partie du RL post-training, leur approche évite l’effondrement de diversité lorsqu’on génère plusieurs réponses : les échantillons restent plus variés.
Pas de dépendance à un vérificateurLa méthode ne repose pas sur un classifieur ou scoreur externe, ce qui la rend utilisable là où la vérification automatique est difficile.
Lien avec le MCMCL’intuition technique repose sur des techniques de type Markov chain Monte Carlo pour échantillonner des distributions resserrées à partir du modèle brut.

Pourquoi c’est pertinent pour IAMI

Pour des usages matching, recommandation et agents, la frontière entre « capacité du modèle » et « recette d’inférence » compte autant que le fine-tuning. Ce travail rappelle qu’avant d’alourdir la chaîne d’entraînement, il peut être rentable d’explorer des stratégies d’échantillonnage au bord du modèle de base — surtout lorsque les signaux de récompense ou les vérificateurs sont partiels ou coûteux.

Sources

Référence de l’article : Karan, A., Du, Y. — Reasoning with Sampling: Your Base Model is Smarter Than You Think. arXiv:2510.14901.

Lire l’article (arXiv)

Parler de votre organisation Découvrir IAMI

Février 2026 • Lecture recherche

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

Une équipe Cohere / Cohere For AI (Ahmadian, Cremer, Gallé et al.) remet en cause l’usage systématique du PPO (Proximal Policy Optimization) dans l’alignement des LLM par renforcement à partir de retours humains (RLHF). Les auteurs montrent qu’une approche plus simple, de type REINFORCE, surpasse le PPO tout en réduisant coût et complexité.

De quoi s’agit-il ?

En RLHF, l’étape d’optimisation par renforcement sert à maximiser le score d’un modèle de récompense entraîné sur des préférences humaines. Le PPO est souvent présenté comme la méthode de référence, mais il impose de charger jusqu’à quatre modèles (générateur, référence, critique, récompense), un réglage délicat et une formulation par token. Les auteurs proposent de revenir aux bases : modéliser la génération entière comme une seule action et utiliser l’estimateur REINFORCE (ou sa variante multi-échantillons RLOO — REINFORCE Leave-One-Out) pour optimiser directement le retour en fin de séquence.

Résultats clés

REINFORCE surpasse le PPOLe policy gradient « vanilla » REINFORCE dépasse systématiquement le PPO (de 3,2 % à 20,3 % en win-rate selon les jeux de données et modèles).
RLOO bat les baselinesRLOO, extension multi-échantillons de REINFORCE, surpasse PPO, DPO et RAFT sur tous les datasets et modèles testés (TL;DR Summarize, Anthropic HH, Pythia, Llama).
Pas besoin de modéliser les séquences partiellesTraiter chaque token comme une action (comme en PPO) n’est pas nécessaire ; modéliser la génération complète comme une seule action suffit et simplifie l’étape RL.
RLOO plus robuste que RAFTRLOO résiste mieux au bruit sur les récompenses et à la sensibilité à la pénalité KL que les méthodes de type RAFT (fine-tuning sur le meilleur échantillon uniquement).

Pourquoi c’est pertinent pour IAMI

IAMI s’appuie sur des modèles de langage et des signaux (feedback, préférences) pour le matching, la recommandation et l’automatisation. Comprendre quelles méthodes d’alignement sont à la fois efficaces et peu coûteuses nous aide à concevoir des pipelines d’apprentissage plus simples et plus robustes. Ce travail illustre qu’en RLHF, la simplicité (REINFORCE, RLOO) peut l’emporter sur des schémas plus lourds comme le PPO.

Sources

Référence de l’article : Ahmadian, A., Cremer, C., Gallé, M., Fadaee, M., Kreutzer, J., Pietquin, O., Üstün, A., Hooker, S. — Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs. Cohere / Cohere For AI. arXiv:2402.14740.

Lire l’article (arXiv)

Parler de votre organisation Découvrir IAMI

Janvier 2026 • Lecture recherche

What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning

Une étude récente (Jia, Zhang et al., Dartmouth College) s’intéresse à l’ordre des données lors de l’entraînement des grands modèles de langage (LLM) pour le raisonnement mathématique. Les résultats remettent en question l’idée qu’une stratégie de « curriculum learning » (du facile au difficile, ou l’inverse) serait universellement meilleure.

De quoi s’agit-il ?

Le curriculum learning consiste à ordonner les exemples d’entraînement (par exemple du plus simple au plus complexe, ou l’inverse) pour améliorer l’apprentissage. En IA, on se demande souvent s’il vaut mieux présenter d’abord les problèmes faciles puis les difficiles, ou l’inverse. L’équipe de Dartmouth a mené des expériences contrôlées sur des benchmarks de raisonnement mathématique avec plusieurs modèles (Llama3.1-8B, Mistral-7B, Gemma3-4B) pour répondre à trois questions : quand le curriculum learning aide-t-il ? Quelle direction (facile→difficile ou difficile→facile) est la plus efficace ? Et est-ce que ça dépend des métriques utilisées ?

Cinq dimensions de difficulté

Les auteurs décomposent la « difficulté » des exemples en cinq dimensions complémentaires : la difficulté du problème, la surprisal du modèle, la marge de confiance, l’incertitude prédictive et la variabilité des décisions. Ils montrent que :

Aucune stratégie n’est universelle — l’efficacité du curriculum (facile→difficile ou l’inverse) dépend à la fois des capacités du modèle et de la complexité de la tâche.
Les gains dépendent du niveau de difficulté — selon la tâche, ce sont tantôt les exemples faciles, tantôt les plus difficiles, qui apportent le plus.
Deux types de curricula — les curricula alignés sur la tâche façonnent les représentations finales et la généralisation ; les curricula basés sur l’état interne (confiance, incertitude) modulent plutôt la façon dont le modèle « hésite » ou se trompe.
Mettre l’accent sur les exemples incertains (où le modèle hésite) peut encore améliorer les résultats.

Pourquoi c’est pertinent pour IAMI

Chez IAMI, nous nous appuyons sur des modèles et des données pour le matching, la recommandation et l’automatisation. Comprendre comment l’ordre et la difficulté des données influencent les performances des modèles nous aide à concevoir des pipelines d’entraînement ou de fine-tuning plus robustes et à rester alignés avec l’état de l’art. Suivre ce type de travaux fait partie de notre veille sur les avancées en intelligence artificielle.

Sources

Référence de l’article : Jia, Y., Zhang, C., Diao, X., Yuan, X., Ouyang, Z., Ma, C., Vosoughi, S. — What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning. Dartmouth College. arXiv:2510.19099.

Lire l’article (arXiv)

Parler de votre organisation Découvrir IAMI

Réconcilier vitesse et qualité dans vos process

Ce qui nous anime

Proche du métier

Simple & modulaire

Partenaires

Hautement configurable

Technologie & sécurité

Technologie de pointe

Accès & rôles

Hébergement souverain

Conformité

Notre innovation

IA au cœur du process

Évolution continue

Vision long terme

Échanger avec l’équipe IAMI

Actualités IAMI

Reasoning with Sampling: Your Base Model is Smarter Than You Think

De quoi s’agit-il ?

Résultats clés

Pourquoi c’est pertinent pour IAMI

Sources

Back to Basics: Revisiting REINFORCE Style Optimization for Learning from Human Feedback in LLMs

De quoi s’agit-il ?

Résultats clés

Pourquoi c’est pertinent pour IAMI

Sources

What Makes a Good Curriculum? Disentangling the Effects of Data Ordering on LLM Mathematical Reasoning

De quoi s’agit-il ?

Cinq dimensions de difficulté

Pourquoi c’est pertinent pour IAMI

Sources