大規模言語モデルは新たな知能か ChatGPTが変えた世界 (岩波科学ライブラリー)人工知能をめぐるブームは、これまで3回あった。人工知能というコンセプトが提唱された1950年代にはほとんど話題にならなかったが、第1のブーム(1980年代)では日本の第5世代コンピュータなどの派手なプロジェクトがあった。このときは私も番組をつくったが、何も成果が出ないままに終わった。

2000年代には深層学習の第2のブームがあったが、これは技術的にはニューラルネットの延長で、指紋認証や音声認識はできるようになったが、知能といえない。

そして今のAIブームの主役はチャットGPTである。これは今までの挫折を吹き飛ばすインパクトがあった。最大の鬼門だった自然言語処理を実現したからである。しかも翻訳だけでなく、ネット上の情報を検索して、もっともらしい日本語で答える。その言葉づかいが、普通の日本人とそう変わらない。

それを可能にしたのが、大規模言語モデル(LLM)である。おもしろいのは、それが記号接地問題という難問を解決したことだ。これは言葉に一義的な定義がなく、文脈によって異なる意味をどう解釈するかという問題だが、それをLLMは、意味を解釈しないという方法で回避したのだ。

「記号接地問題」の解決

本書はLLMを厳密に解説したものではなく、素人むけの超入門書だから、これだけ読んでもLLMは構築できないが、他の本格的な解説書は数式やプログラムがたくさん出てきて、わかりにくい。本書ぐらいざっくり書いてあると、その本質がわかる。

LLMはニューラルネットとは別の技術で、1950年代に提案されたものらしい。それは言葉を実世界の物と対応させるのではなく、まったく同じ文脈で使われる二つの言葉は同じ意味とみなすものだ。たとえばmonkeyとapeは、どんな英文でも同じ文脈で使われ、言葉を入れ替えても通じる。他の言葉との関係も同じなので、これは同一の言葉とみなす。

これはソシュールが100年前に提唱した構造言語学と同じである。monkeyは特定の動物をさすのではなく、他の動物と異なる差異の束だという考え方である。これは構造主義やポストモダンに大きな影響を与えたが、それを工学的に応用したのがLLMである。たとえば

 猿は**に登る

という文を与えると、LLMは猿に近い言葉をビッグデータの中からさがし、**に入る確率がもっとも高い言葉として「木」を選ぶが、それが何を意味するかは知らない。その代わり猿と木がどういう文で使われるかという文例を数百万もっているので、その関係はわかっている。

これは文の意味は実世界と1対1に対応しているのではなく、文脈によって決まるというウィトゲンシュタインの言語ゲームと同じ発想である。人間の子供が言葉を習得するときも、一つ一つ辞書を引いて覚えるのではなく、文脈から推測している。

LLMは「知能」といえるのか

LLMは人工知能のもう一つの難問であるフレーム問題も解決した。これは

 テーブルの上にペンがあります。それを取ってください

という文で、「それ」という代名詞が何を意味するのかわからないという問題である。テーブルは簡単に動かすことができないとか、ペンは字を書くのに使うとか、無数のフレームを知らないと、代名詞の意味はわからない。

これもネット上の用例を何百万も蓄積すると、「それ」がペンを意味する確率が圧倒的に高いことがわかる。この場合、テーブルとかペンが何を意味するかは知る必要がない。

つまり言葉(シニフィアン)の本質が意味(シニフィエ)なのではなく、意味は言葉の集合から推測されるものだという唯名論である。言葉を超える本質が存在するという実在論こそプラトン以来の迷信であり、大乗仏教が否定したものなのだ。

LLMは知能といえるだろうか。それは定義の問題だが、人間も文脈から意味を推測しているので、LLMは知能を獲得したといえるのかもしれない。