Language Models are Few-Shot Learners
概要・研究の位置づけ
- OpenAIの研究であり、はじめてGPT-3 (175bn.)を導入した論文。モデル規模の拡大により、様々なタスクに対する性能が大きく向上することを報告
- 加えて**「few-shot learning (in-context learning)」を導入**。それ以前には、新たなタスクを行うためにはタスクごとのfine-tunigを行う必要があった。その手間を排除しつつ既存のSOTA水準の結果を出せることの発見は、以降の基盤モデル競争の火付け役となった
内容
175Bモデルによる性能の向上

- モデル規模の拡大と共に、Validation lossが継続的に低下するという性質が何桁にも渡って成立している
※ モデル巨大化競争の原因の一つとなった歴史的な図の一つ

- モデルのパラメータ数を変更し、多数のタスクで性能を評価 (裏側の薄い線が各タスクに相当)
- 13B時点でAccuracyが必ずしも良くないが、175Bにすることで劇的に性能が向上しているタスクがいくつか見られる
- 13Bですでに性能がある程度良いタスクについても、175Bにすることで継続して性能向上が見られている
In-context learningによる性能改善
学習方法の違いの整理

- タスクごとに、都度パラメータ変更を伴う学習をしなくてはいけないもの → 既存手法
- タスクについて指示や例示をすることにより、パラメータ変更をせずとも対応させること → In-context learning (zero, one, few-shot learning)