GPT-4を使うには？マルチモーダルとは？

OpenAIでは早くも次世代モデル、GPT-4を発表するかもしれません。...というか発表されてしまいました。簡単に骨子をまとめておきます。

GPT-4とは？
GPT4を利用するには？
GPT４の評判は？

GPT-4とは？

GPTは「Generative Pretrained Transformer」のことです。

OpenAIが開発したる言語モデルです。現在のChatGPTはGPT3.5がベースとなっています。

４はバージョンがさらに上がり、より多くの学習データを使ったAIとなります。

学習データが多いと、より回答にも精度が上がることが期待されます。

もう一つ特徴となりそうなのが、画像、ビデオなどへの対応です。

（更新2023/3/15）

OpenAIよりGPT4についての発表がありましたので、その特色について加筆訂正しておきます。

www.youtube.com

GPT-4 (openai.com)

精度が向上！

学習に使われれるデータ数が増加します。

学習量が増えれば、当然回答の精度が向上します。

例としては司法試験の模擬試験では、GPT-3.5は下位10％程度のスコアでしたが、GPT-4は受験者の上位10％程度のスコアをたたき出したそうです。

記憶力がアップ！

地味にうれしいのが対話の記憶力のアップです。

ChatGPTでは、話し方を指定したり、関連したテーマを掘り下げて質問できます。

対話がある程度保存されるのですが、その記憶は意外に短く終わってしまいます。

対話の保存能力がアップしてくれるのであれば、同じテーマでより何度もQ＆Aのセッションを続けられるので、いちから説明しなおす頻度が減ります。

GPT3.5では、記憶は4,096「トークン」で、これは約8,000語程度まで。

それに対し、GPT-4の最大トークン数は32,768、64,000ワード。短編小説程度ですので、かなり継続性のある会話を続けられそうです。

マルチモーダル対応？

「マルチモーダル　＝　multimodal」とは、「多峰性の」「度数分布を表すグラフにおいて、峰（山頂）が三つ以上ある」といった意味があります。

AIにおいては、文字だけでなく画像や音声、ビデオなど複数のデータ種別を学習したモデルを表します。

現在のChatGPTは、文字入力、文字出力のみですので、画像を理解したり、画像を作ることは基本的には行っていません。

しかしGPT4では、画像の理解力を持つことが紹介されました。

画像を渡すことで、「この画像のどこが面白いか説明して」「その画像に映ってているケーブルが何か」とか「この画像のキャプションを作って」と指定できそうです。

ただ画像認識についてはChatGPTではまだサポートされません。この機能が一般に開放されるのは先になりそうです。

また噂にあったビデオ認識、ビデオ出力については今回アナウンスはありませんでした。

他には

・だまし（プロンプトのハック）への対応が強化

・多言語対応力がアップ

・話のトーン設定がよりしやすく

...など様々な改良が加えられています。

GPT4を利用するには？

ChatGPT Plusを使っているユーザは利用可能となります。

（ただし利用回数など上限あり）

開発者はウェイティングリストに登録する必要があります。

登録はこちら。

GPT-4 API waitlist (openai.com)

ただBingのAIチャットはGPT4にすでに対応しているそうです。

BingのAIチャットが使えるのであれば、そちらを使うというのも手です。

www.kyoukasho.net

上記に既述したように、画像入力は対応しているものの一般公開は現時点では（ChatGPT Plus等であっても）ありません。

GPT４の評判は？

やはり精度アップが注目されます。

【GTP4】GPT4のテストスコア

高すぎるw SATの合計が1410もある

私がハーバードに入った時のスコアよりも高いと思うw pic.twitter.com/QHSTIiUcYV
— Takuya Kitagawa/北川拓也 (@takuyakitagawa) 2023年3月15日

マルチモーダルのため、GPT4なら図入りの宿題まで解けちゃうのであれば教育業界の常識が崩壊してしまう可能性もあるためかもしれません。

これマジか、オンラインの試験もう完全にダメそう pic.twitter.com/xZYpQ4bLzJ
— なんか (@_determina_) 2023年3月14日

クリエイターの教科書

ChatGPT, Stable Diffusion, Visual Studio, Excelなど教科書