0. まずは導入:LLMに「もう一回言って?」を“プロンプト側”でやる
LLMを使っていて、こんな体験はありませんか?
- 同じ質問を投げたのに、1回目はズレた答え、2回目は急に当たる
- 長い入力(箇条書き、候補、表っぽい羅列など)だと、どこかを読み落とす
この論文は、その「2回目のほうが当たりやすい」現象を1回の問い合わせの中で再現するアイデアを検証しています。
やることは極端にシンプルで、入力をこう変えるだけです。
(通常) <QUERY>
(提案) <QUERY><QUERY> ← 質問文を丸ごと2回つなげる
1. この論文が言っていること(3行まとめ)
- LLMは多くの場合、**左から右へ順番に読む(causal LM)**仕組みで、入力の並び順が性能に影響する
- そこで、質問文を 2回繰り返すと、2回目の読み込みで「1回目の全文」を参照でき、理解が安定する
- 実験では、推論をさせない条件で、複数モデル・複数タスクにおいて統計的に有意な改善が多数確認された
- しかも 出力トークン数(返答の長さ)やレイテンシ(体感速度)がほぼ増えないと報告
2. 背景:なぜ順序が効くのか(専門外向けに最小限)
論文の鍵は「多くのLLMは causal language model として学習されている」という点です。
これは乱暴に言うと、
- 入力を 左→右に処理する
- 早い位置のトークン(単語)は、後ろの情報を“未来”として参照できない
という性質です。
だから、たとえば多肢選択問題で
- question-first:質問 → 選択肢
- options-first:選択肢 → 質問(=選択肢を読む時点で質問が見えていない)
のように順序を変えると、モデルの当たりやすさが変わります。
この論文は、順序問題の“抜け道”として
同じ質問をもう一度読ませる(=2周目)
を提案します。2回目の質問トークンは、1回目の全文を参照できるので、結果として「全体を見渡した状態」で回答しやすくなる、という説明です。
3. 方法:何をどう比べたのか(実験設計を“記事向け”に整理)
3.1 対象モデル(7つ)
論文では、主要プロバイダの 7モデルを対象にしています(2025年2〜3月、公式APIで実行)。
- Gemini 2.0 Flash / Gemini 2.0 Flash Lite
- GPT-4o / GPT-4o-mini
- Claude 3 Haiku / Claude 3.7 Sonnet
- Deepseek V3
3.2 ベンチマーク(7つ + 形式違い)
標準ベンチマーク5つ + 独自2つ(NameIndex / MiddleMatch)。
- ARC (Challenge), OpenBookQA, GSM8K, MMLU-Pro, MATH
- 独自:NameIndex, MiddleMatch(後述)
さらに、ARC / OpenBookQA / MMLU-Pro(多肢選択系)は
- question-first
- options-first
の2形式で実験しています。
ここがポイント:
多肢選択3種が「2形式」なので、ベンチ構成は実質 10パターン(2+2+2+1+1+1+1)になり、
7モデル×10パターン = 70テスト という数え方になります。
3.3 勝ち負けの判定(統計)
「改善したっぽい」ではなく、**McNemar検定(p<0.1)**で有意差を見て「勝ち」を数えています。
4. 結果:図1〜図4の読み方(ここがこの記事のメイン)
以下は、論文の図を「読者が迷わない」ことを最優先に、見どころ→解釈の順で説明します。
図1の読み方:まずは“効くかどうか”の総まとめ
図1は何を示す?
- 推論させない(= step-by-stepを要求しない)条件で
- Baseline(通常プロンプト) vs Prompt Repetition(2回反復)の正答率を比較
図1の見方
- 棒(または点)の高さ=正答率
- **★(星)**=統計的に有意な改善(McNemar検定 p<0.1)
図1の重要な数字(論文が明示)
- 70テスト中、47が有意に改善(47勝)
- 悪化(敗北)は0
つまり、「効くことが多く、少なくともこの範囲では“外して悪化する”例が見えていない」
というのが図1のメッセージです。
図1の“効きやすい場面”の傾向
論文は、特に
- **options-first(選択肢→質問)**で改善が大きい
- **question-first(質問→選択肢)**では改善が小さめ
と述べています。
直感的には、options-firstは「質問を見ないまま選択肢を処理する」局面があるので、2回目に読む効果が出やすい、という理解です。
図1で目を引く例:NameIndexでの劇的改善
論文中で具体的に挙げられている例として、
- Gemini 2.0 Flash-Lite × NameIndex
- Baseline:21.33%
- Prompt Repetition:97.33%
という大きな改善が報告されています。
図2・図3の読み方:“精度以外”も増えないの?
図2・図3はセットで、扱っている指標が同じです(紙面の都合で分かれているイメージです)。
図2・図3は何を示す?
各ベンチマークごとに、
- Accuracy(正答率)
- Response length(出力の長さ:平均/中央値)
- Latency(レイテンシ:応答時間)
を、複数の手法で比較しています。
比較されている手法(ざっくり)
- Baseline(通常)
- Prompt Repetition(2回)
- Prompt Repetition (Verbose)(「繰り返します」を挟む)
- Prompt Repetition ×3(3回)
- Padding(ドット等で長さだけ水増し)
- そして参考として:Think step by step(推論を促す)
図2・図3の結論(論文の主張をそのまま言うと)
- Prompt Repetition系(2回/Verbose/×3)は、出力の長さを増やさない
→ “回答フォーマットが変わらない”ので、既存システムに入れやすい - レイテンシも基本は増えない(入力処理=prefillが増えるだけで並列化できる、という説明)
- ただし例外として、非常に長い入力(NameIndex / MiddleMatch、または×3)では
Claude系モデルでレイテンシ増加が見られたと記載
「Paddingが効かない」意味
ここは重要で、論文は
伸びたのは“入力が長いから”ではなく、同じ内容をもう一度提示したから
だと示すためにPaddingを入れています。
Padding(無意味な文字で長さだけ揃える)は改善しない、という結果が書かれています。
“Think step by step”との違い(読者が一番知りたいところ)
図2・図3では、推論を促すと
- 出力が長くなる
- レイテンシが大きくなる
(=コストと時間が増える)
一方でPrompt Repetitionは、少なくともこの実験範囲では
- 精度が上がるのに
- 出力の長さもレイテンシもほぼ増えない
という対比が強調されています。
ここが“使いどころ”の分かれ目:
- 推論が必要な難問 → step-by-stepが効くが重い
- 推論させないQ&A/分類/選択 → Prompt Repetitionが軽く効く可能性
図4の読み方:推論(step-by-step)をさせるとどうなる?
図4は何を示す?
- 「Think step by step」と促して推論ありにした条件で
- Baseline vs Prompt Repetition の精度比較
図4の数字(論文が明示)
- 28テスト中、5勝・1敗(残りは有意差なし)
本文では「5 wins, 1 loss, 22 neutral」と表現されています(合計28)。
なぜ効きにくい?
論文は、
推論過程の出力が、そもそも質問文の言い直し(反復)から始まることが多い
だから、入力側で反復しても追加メリットが小さい
という説明をしています。
5. 独自ベンチマーク(NameIndex / MiddleMatch)をやさしく説明
この論文は、反復の効きを“分かりやすく見せる”ための独自タスクも用意しています。
NameIndex(N=50, i=25)
- 50個の名前が並んだリストを与える
- 「25番目の名前は?」と聞く
人間でも数え間違いが起きやすいタイプのタスクで、モデルが読み飛ばすと外しやすい。
反復による改善が強く出た、という位置づけです。
MiddleMatch(N=40, K=10)
- 40個の要素(名前 or 数字)からなる列を与える
- 要素は10種類しかない(K=10)ので、列の中で繰り返しが起きる
- 「AとBの“ちょうど間”にある単一の要素は?」を答える
こちらも、列全体の把握が甘いと間違えやすく、反復で改善が出やすい設計です。
6. 実務での使い方(コピペできる形に)
最小テンプレ(これだけ)
<QUERY>
<QUERY>
多肢選択の例(論文のテンプレ趣旨を短く)
- 返答形式(例:「The answer is A.」のように出力を固定)を変えずに
- 入力側だけを2回繰り返す
システム側で「ユーザが入力した質問を裏で2回にして投げる」ことも可能で、
出力フォーマットを壊さずに“ドロップイン”しやすい、というのが論文の推しポイントです。
7. 注意点(論文の範囲で言えること/言えないこと)
- 論文は「出力トークン数やレイテンシは増えない(例外あり)」と報告していますが、
入力トークン数は増えるので、API課金が入力にも乗る場合はコスト増の可能性があります
(論文は主に“生成側コスト”の観点で議論しています)。 - 長いプロンプトでは、そもそも反復が入力長制限に引っかかって難しい場合があります(論文でも注意書きあり)。
- 推論(step-by-step)を使う場面では効果が弱く、状況次第で中立〜わずかにプラス、という結果です。
8. まとめ
- 推論させないLLMに対して、質問文を2回繰り返すだけで改善が出るケースが多い
- 実験では 47/70で有意改善・0敗
- しかも 出力が長くならず、レイテンシも概ね増えない(例外は長文×一部モデル)
- 使いどころは「即答系」「多肢選択」「長い入力の読み落としが怖い場面」
- 難問の推論は別途step-by-stepが有効だが重い。軽く底上げしたいならPrompt Repetitionは候補になる
参考(一次情報)
※リンクはコードブロックに入れています
arXiv: 2512.14982
Prompt Repetition Improves Non-Reasoning LLMs
https://arxiv.org/abs/2512.14982
https://arxiv.org/pdf/2512.14982
