ベンチマークの『1点差』に意味はあるか — 数字に誤差棒をつける

公開されるベンチマークのスコアは、たいてい「85.3%」のように小数点まで添えられた一つの数字で示される。だがその数字は、有限のテストデータから得られた点推定にすぎない。別の1000問でもう一度測れば、同じモデルでも値は揺れる。問題は、その揺れがどのくらいか、を多くの記事もリーダーボードも書かないことだ。
数字には誤差棒がある
正解か不正解かを数える正答率は、コイン投げと同じ二項分布で考えられる。標準誤差のおおまかな目安は √(p(1−p)/n) だ。正答率 p=0.85、テスト件数 n=1000 なら、√(0.85×0.15/1000) ≈ 0.011。95%の幅はおよそその±2倍で、±2.2ポイントになる。
つまり1000問のベンチマークでは、84%と86%のモデルは「ほぼ引き分け」だ。0.5ポイント差に一喜一憂しても、多くは測定の揺らぎの中にある。件数が100問しかなければ、揺れは±7ポイントにも広がる。小さなテストセットの順位は、想像よりずっと当てにならない。
比べるなら「同じ問題」で
ただし、二つのモデルを比べるときは、もっと敏感に差を見られる。鍵は、両者をまったく同じ問題で評価し、答えが食い違った問題だけに注目することだ。両方が正解・両方が不正解の問題は勝敗に関係しない。差は「片方だけが当てた問題」に宿る(統計ではMcNemar検定と呼ぶ)。同じ土俵で対戦させれば、全体の正答率を別々に眺めるより小さな差を検出できる。
数字の前に問うこと
そして最も静かな落とし穴がある。テスト問題が学習データに紛れ込んでいないか、という汚染(リーク)だ。これが起きると、スコアは「解く力」ではなく「覚えていた度合い」を測ってしまう。
便利な習慣を一つ。新しいスコアを見たら、(1)テスト件数は何件か、(2)誤差の目安は何ポイントか、(3)その差は誤差を超えているか、を順に問う。数字は嘘をつかないが、誤差棒のない数字は多くを語らない。
お役立ち情報
- 📄 統計WEB - 信頼区間と標準誤差
- 統計データの「誤差の範囲」や「信頼区間」が何を意味するのかを初心者向けに丁寧に解説した日本語の学習サイト。
- 📊 LMSYS Chatbot Arena Leaderboard
- 各LLMの勝率(イロレーティング)をユーザー投票で集計し、統計的な「誤差範囲(Confidence Intervals)」を表示している定番評価サイト。