GPT-4の特徴は主に2つ。一つは「マルチモーダルモデル」を採用し、画像とテキストをインプットして、テキストのアウトプットが可能になったこと。例えば、以下の画像を入力し、「この画像のどこが面白いのか?パネルごとに説明してほしい」と質問した場合、的確な回答を得ることができている。
画像は「Lightningケーブル」アダプターのパッケージで、3枚のパネルがある。(途中省略) この画像のユーモアは、大きくて時代遅れのVGAコネクタを、小さくてモダンなスマートフォンの充電ポートに差し込むという不条理にある。
マルチモーダルモデルは、対話システム、テキスト要約、機械翻訳など、幅広い用途での利用が想定される。OpenAIのグレッグ・ブロックマン共同創設者によるデモンストレーションでは、ウェブサイトの手書きイラストをベースに、実際のウェブサイトを作成できることが示された。
性能の向上
GPT-4の2つ目の特徴は専門的・学術的側面で人間レベルの性能を発揮すること。OpenAIによれば、学習後のアライメントプロセスにより、事実の正確さや望ましい行動への忠実さを示すパフォーマンスが向上している。
OpenAIは前モデルと比較して、「許可されないコンテンツに対するリクエストに応える可能性が82%低く、事実性を示す特定のテストでは40%高いスコアを示した」と述べている。
GPT3.5と比較して、日常会話ベースでは同様に感じられたとしても、タスクの複雑さが十分な閾値に達したときに違いが出てくるという。前述のブロックマン氏のデモでは、米国税法に基づいて結婚した女性の基礎控除額を確認し、根拠となる情報を提示できることが示された。
GPT-4のテストプログラムでは、SAT英作文やUBE (Uniform Bar Examination):米国統一司法試験など、人間用に設計された試験を実施。例えば、司法試験の模擬試験では、受験者の上位10%程度のスコアで合格することができた。前モデルのGPT-3.5では下位10%程度のスコアであった。
GPT-4の課題
OpenAIの最高経営責任者であるサム・アルトマン氏はTwitterで、GPT-4は人間の価値観や意図に「最も合致している」と評価したが、「まだ欠陥がある」とも述べている。
ホワイトペーパーでは、「GPT-4の出力を使用する際には、特に信頼性が重要な場面で注意が必要」と記載がある。
単純な推論ミスをしたり、ユーザーから明らかに間違ったことを言われても、過度に騙されたりすることがある。人間と同じように難しい問題で失敗することもあり、例えば、作成したコードにセキュリティの脆弱性を持ち込むこともある。
「幻覚」と呼ばれる不正確な回答は、未だ課題となっている。また、使用できるデータはGPT3,5やChatGPTと同様、「事前学習データの大半がカットオフした」2021年9月までの情報となっている。
なお、GPT4のテキスト入力機能は、月額20ドルのサブスクリプション「ChatGPT Plus」を通じて公開されているが、現状は容量制限により待機リストを受け付けている状態。一方、GPT-4の画像入力機能はまだテスト段階であり、リリースされていない。
また、AIモデルの性能を自動評価するフレームワーク「OpenAI Evals」がオープンソース化されており、GPT4モデルのフィードバックを受け付けている。
OpenAIの公式サイトによると、外国語学習サービスDuolingo、決済アプリStripe、オンラインスクールKhan Academyなどが、プロダクトでGPT-4を統合するために提携している。