PR

人と協働でモデルを強化

 ChatGPTは、オープンAIが2022年に学習を終えたモデル「GPT-3.5(Generative Pre-training Transformer 3.5)」を基にしている。GPT-3.5とは1000億パラメーターを超える巨大言語モデルであり、これらは「自己教師あり学習」で学習して構築している。自然な文章を生成できるのが特徴だ。

 そして、このGPT-3.5に対し、人間のフィードバックに基づく強化学習手法「RLHF(Reinforcement Learning from Human Feedback)」を用いることで、ChatGPTはモデルの精度を高めている。開発の初期では人間のAIトレーナーがユーザーとAIの会話を演じる形で学習データを構築していった。

 その後、既存のモデルで出力した回答が好ましいものかどうかを人間が評価し、不適切な回答があればより適切な文章を出力できるようにモデルを微調整している。この微調整により、法律や倫理的に問題のない回答の出力を可能にしている。

 現在はプレビューとして無料で公開している。議論を組み立て、長文テキストを作成できるという特徴があるため、コンテンツ作成やカスタマーサービスにおける質問の回答などに活用できる可能性がある。論理的に問題を整理して指摘できることから、コード中のバグを発見するといった活用にも期待がかかる。

 しかし、現時点では的確でない回答も多く、出力された情報が事実に基づいたものかどうかはユーザーが確認しなければならない。また、回答の倫理性や適切さの担保についても今後、さらなる改善が必要とされている。