Training language models to follow instructions with human feedback

概要・研究の位置づけ

OpenAIは2020年頃から、すでにGPT-3を公開していたが、大きな話題にはなっていなかった。爆発的に広がったのは2022年11月のChatGPTの登場。当時のGPT-3とChatGPTのモデルとしての大きな違いは、本論文で紹介されているRLFH (Reinforcement Learning with Human Feedback) の有無であり、対話の質に大きな飛躍をもたらした転換点である

内容

“Alignment”とは

Untitled

LLMは基本的に「次の単語の予測」として学習されている。しかも、学習ソースは、主にWebから収集可能なデータである
一方で、LLMは「人間の指示に従う。しかも、役立ち、安全であるように」という別の目的で使われている。
上記2つの差分を”misaligned”として定義している。

人間の指示に従うような応対のデータセットで学習させれば良いのではないか？

Untitled

過去に、「人間の指示に広く従う」ように設定されたデータセットに、FLANやT0がある。
そのデータセットでfine-tuneしたGPT3(175B)を作り、その結果をOpenAIの利用者層に提示して、良し悪しのアンケートを行った。結果としては、本研究で作られたモデル (PPO-ptx)の方が好まれる結果となった。
FLANやT0などの慎重に用意されたデータセットでも、実際の用途における「人間の指示」の幅広さ・方向性には対応しきれていなかった。