Training language models to follow instructions with human feedback

概要・研究の位置づけ


内容

“Alignment”とは

Untitled


人間の指示に従うような応対のデータセットで学習させれば良いのではないか?

Untitled