Chain-of-Thought Prompting Elicits Reasoning in Large Language Models

概要・研究の位置づけ

LLMが苦手な論理的思考を改善するための策として、思考過程を言葉で書き下す Chain-of-Thought (CoT)という手法を提案。簡単な工夫ながら、大幅な精度改善を達成した。Promptの工夫による精度改善の可能性を示したことは、その後のPrompt Engineeringを後押しするものとなった
LLMのこの特性はモデルサイズが100B params.程度を超えた段階で急に発現することも示し、言語モデル大規模化の動機を更に強くすることになった

前回の振り返り

ANLI でも示されたように、高度な論理的思考を必要とするタスクは、巨大言語モデルでも苦手なものの一つ
モデルの巨大化やFew-shot examplesを追加することにより性能改善を行うことはできる傾向は見えたものの、本質的に「解ける」とは言い難いものだった

内容

Chain-of-Thoughtとは

Untitled

Standard Prompting (従来のPrompt構成): 1-shot exampleの中で、単に答えだけを答えている (”The answer is 11”)。結果として、実際の問いに対しても、答えだけを回答 (”The answer is 27”)
Chain-of-Thought Prompting (論文で提案しているPrompt構成): 1-shot exampleの中で、回答に至る道筋を指示しており (”Roger started with 5balls. 2 cans of 3 tennis balls each is 6 tennis balls. 5+6=11”)、その後答えを書いている (”The answer is 11”)。 LLMはそれに従い、実際の問いに対しても考える筋道をまず答え、その後最終的な答えを解答している。

Chain-of-Thoughtによる性能向上

Untitled

論理性が要求される数学の文章題のデータセットによる評価。LLMを教師あり学習したものがこれまで最良のスコアを出していた。
一般的な学習しかしていないPaLM(540B)は、そのままでは文章題に正しく答えることが出来ない