強化学習はLLMに「新しい推論」を教えていない? — 2026年の論文が示す『選択としてのRL』

イメージ画像

「強化学習(RL)で鍛えると、LLMは新しい推論力を身につける」——そう信じられてきた。だが2026年に入り、その前提を静かに揺さぶる論文が続いている。共通する結論は意外なほど地味だ。RLは新しい能力を教えているのではなく、土台のモデルが既に持っていた答えを『選び直している』だけかもしれない、というのだ。

効いているのは、ほんの数%の分岐点

口火を切ったのは5月に公開された論文「Rethinking RL for LLM Reasoning」(arXiv:2605.06241)だ。RL前後でモデルの出力を1トークンずつ比べると、実際に確率が書き換わっていたのは全体のわずか1〜3%の位置に過ぎなかった。しかも書き換わった先のトークンは、ほぼ例外なく土台モデルが元から上位5候補に挙げていたものだった。

つまりRLは、語彙や論法を一から教え込んでいるのではない。モデルが「迷う」高エントロピーの分岐点で、本来うっすら正解だと思っていた選択肢に少しだけ重みを足している。著者らはこれを『能力の獲得』ではなく『まばらな方針選択』と呼ぶ。実際、この知見をもとに作ったRL不要の軽量手法は、数十問・単一GPUで数分という桁違いの低コストで、本格的なRLに匹敵する性能を出したと報告している。

「何回も試すと土台モデルが勝つ」謎

この見方は、別の研究とも噛み合う。論文「Does RL Really Incentivize Reasoning Capacity…?」(arXiv:2504.13837)は、pass@k——k回試して1回でも正解できる確率——という物差しで両者を比べた。すると、k=1の一発勝負ではRL版が勝つのに、kを大きく(何十回も試行)すると逆に土台モデルが勝つ、という奇妙な逆転が起きた。

答えはこうだ。RLは正解を出しやすくする代わりに、出力の多様性を削ってしまう。だから一発では強いが、たくさん試せば「土台モデルなら拾えたはずの正解の幅」に追い越される。到達できる答えの天井は、結局のところ土台モデルに縛られている。さらにこの論文は、本当に新しい推論を植え付けるなら、RLより蒸留(強いモデルの出力を学ぶ)の方が有効だったと述べている。

結局なにが効くのか

3本目「The Surprising Effectiveness of Negative Reinforcement」(arXiv:2506.01347)も、「不正解を抑える」だけで学習がよく進むと示し、RLの正体が既存知識の研ぎ直しであることを補強した。

まとめると実務的な指針はこうなる。土台モデルが何回試しても解けない問題は、RLでは生み出せない——その能力は蒸留やSFTで外から入れるしかない。RLが得意なのは、潜在的にできることを安定して一発で出させること。新能力の獲得と、既存能力の研ぎ直し。この二つを分けて考えると、「どの手法を、いつ使うか」がぐっと見通しやすくなる。

参考

お役立ち情報

📄 Zenn - LLMの強化学習(RLHF)とDPOの仕組みを理解する
- LLMに強化学習を適用する代表的アプローチ（RLHFやDPO）について、数式やダイアグラムを交えて噛み砕いた日本語の技術解説。
📺 YouTube - Reinforcement Learning from Human Feedback (RLHF) - Computerphile
- Computerphileによる、RLHFの基本的な仕組みと動作原理を解説した動画（英語）。

効いているのは、ほんの数%の分岐点

「何回も試すと土台モデルが勝つ」謎

結局なにが効くのか

参考

お役立ち情報

藤村 彩の他の記事

タグ一覧

藤村彩の他の記事