世の中にはチャットGPTの本やセミナーがあふれている。ああいう深層学習の考え方は2000年代からあり、音声認識や画像認識には使えるようになったが、自然言語だけはだめだった。それは言葉の文脈を機械に学習させることがむずかしいからだ。たとえば次のような質問を機械にしてみよう。
これは有名なWinograd Schemaという問題で、1972年にWinogradの著書で発表されたが、当時の人工知能では答えられなかった。「それ」が何をさすのか、わからないからだ。正しく答えるには、おもちゃと箱のどっちが大きいのか、箱をおもちゃに入れることはできないのか、といった予備知識(フレーム)を無限に学習させないといけない。
これをフレーム問題という。第5世代コンピュータではそのフレームを人間が入力したが、これでは膨大な労力が必要になり、小学3年生の国語の問題を1問とくのに1年かかった。人工知能でフレーム問題は解決できない、というのが5Gの結論だった。
しかしチャットGPTに上の質問をすると、「大きすぎたのはおもちゃです」と正しく答える。この簡単な問題を解くのに50年もかかったのは、言語をめぐる思想の大転換が必要だったからだ。
たとえばchildとwomanの和がgirlになり、距離(内積)の近い言葉は意味が似ていると考える。現実の言葉はもっと多次元だが、そのベクトル空間の中の位置で言葉の意味が決まる。

上の問題で「Xは大きすぎたからだ」に似た文をネット上で検索すると、Xに箱が入る文はまず見つからないので、Xはおもちゃである確率が高いと推定し、そういう答を代入する。おもちゃとは何かは知らないが、知る必要はない。いわば言葉を「フレームの束」と考えるのだ。
この推測は数百語ぐらいでは役に立たないが、そういうトレーニングをくり返して巨大なデータベースをつくったのがGPT(Generative Pre-trained Transformer)である。チャットGPTのトレーニングデータは数千億語から数兆語といわれ、その推測の正確さは規模のベキ乗で大きくなる。理論的にフレーム問題が解けたわけではないが、推測が99.99%当たっていればいいと考えるわけだ。
このような大規模言語モデルは、インターネットで膨大なデータが入手できる時代に初めて可能になったシステムだが、チョムスキー的なロゴス中心主義より人間の思考の本質を的確にとらえている。人間の脳も1000億のニューロンと100兆のシナプスによる巨大な並列計算機なので、こういうトレーニングを毎日やっているわけだ。
おもちゃが箱に入らなかった。それは大きすぎたからだ。大きすぎたのは何か?
これは有名なWinograd Schemaという問題で、1972年にWinogradの著書で発表されたが、当時の人工知能では答えられなかった。「それ」が何をさすのか、わからないからだ。正しく答えるには、おもちゃと箱のどっちが大きいのか、箱をおもちゃに入れることはできないのか、といった予備知識(フレーム)を無限に学習させないといけない。
これをフレーム問題という。第5世代コンピュータではそのフレームを人間が入力したが、これでは膨大な労力が必要になり、小学3年生の国語の問題を1問とくのに1年かかった。人工知能でフレーム問題は解決できない、というのが5Gの結論だった。
しかしチャットGPTに上の質問をすると、「大きすぎたのはおもちゃです」と正しく答える。この簡単な問題を解くのに50年もかかったのは、言語をめぐる思想の大転換が必要だったからだ。
言葉を「文脈ベクトル」と考える
それに対して、最近の生成AIが採用している分布意味論は言語使用説の一種だが、文脈が確率的に分布していると考え、言葉の意味をその前後の文脈から推測する。ここでは言葉を多くの文脈から推定されるベクトルとして定義し、その意味はベクトル空間で決まる。たとえばchildとwomanの和がgirlになり、距離(内積)の近い言葉は意味が似ていると考える。現実の言葉はもっと多次元だが、そのベクトル空間の中の位置で言葉の意味が決まる。

上の問題で「Xは大きすぎたからだ」に似た文をネット上で検索すると、Xに箱が入る文はまず見つからないので、Xはおもちゃである確率が高いと推定し、そういう答を代入する。おもちゃとは何かは知らないが、知る必要はない。いわば言葉を「フレームの束」と考えるのだ。
この推測は数百語ぐらいでは役に立たないが、そういうトレーニングをくり返して巨大なデータベースをつくったのがGPT(Generative Pre-trained Transformer)である。チャットGPTのトレーニングデータは数千億語から数兆語といわれ、その推測の正確さは規模のベキ乗で大きくなる。理論的にフレーム問題が解けたわけではないが、推測が99.99%当たっていればいいと考えるわけだ。
このような大規模言語モデルは、インターネットで膨大なデータが入手できる時代に初めて可能になったシステムだが、チョムスキー的なロゴス中心主義より人間の思考の本質を的確にとらえている。人間の脳も1000億のニューロンと100兆のシナプスによる巨大な並列計算機なので、こういうトレーニングを毎日やっているわけだ。