Training language models to follow instructions with human feedback
概要・研究の位置づけ
- OpenAIは2020年頃から、すでにGPT-3を公開していたが、大きな話題にはなっていなかった。爆発的に広がったのは2022年11月のChatGPTの登場。当時のGPT-3とChatGPTのモデルとしての大きな違いは、本論文で紹介されているRLFH (Reinforcement Learning with Human Feedback) の有無であり、対話の質に大きな飛躍をもたらした転換点である
内容
“Alignment”とは
- LLMは基本的に「次の単語の予測」として学習されている。しかも、学習ソースは、主にWebから収集可能なデータである
- 一方で、LLMは「人間の指示に従う。しかも、役立ち、安全であるように」という別の目的で使われている。
- 上記2つの差分を”misaligned”として定義している。
人間の指示に従うような応対のデータセットで学習させれば良いのではないか?
- 過去に、「人間の指示に広く従う」ように設定されたデータセットに、FLANやT0がある。
- そのデータセットでfine-tuneしたGPT3(175B)を作り、その結果をOpenAIの利用者層に提示して、良し悪しのアンケートを行った。結果としては、本研究で作られたモデル (PPO-ptx)の方が好まれる結果となった。
- FLANやT0などの慎重に用意されたデータセットでも、実際の用途における「人間の指示」の幅広さ・方向性には対応しきれていなかった。