ことばの意味を計算するしくみ 計算言語学と自然言語処理の基礎 (KS情報科学専門書)
4月4日からアゴラセミナー「AIは世界を変えるか」がスタートするが、これはAIのプログラミング講座ではなく、ハウツーものでもない。テーマは言語の本質である。

チャットGPTで使われている大規模言語モデル(LLM)は、言語学が70年以上かかって解けなかった謎をコンピュータが解いた画期的なイノベーションだ。その謎とは、人間は言葉の意味をどうやって知るのかという問題である。たとえば

 Time flies like an arrow.

という言葉を初期のAIは「時蠅は矢を好む」と訳した。これが間違いであることを証明するには「時蠅」という蠅がいないことを示す必要があるが、それはコンピュータにはできない。もしそういう蠅がいたら、likeは前置詞ではなく動詞になり、文の構造が変わってしまう。

こういう曖昧さを解決するため、意味論と文法理論(統辞論)を区別する伝統的な言語学に対して、両者を統一的に説明する多くの理論が提案された。その代表がモンタギュー意味論である。これは上の文を

 T(x)→F(x)∧L(x)

のような記号論理で表現するものだ。ここでT(x)は時間を示し、F(x)は「飛ぶ」、L(x)は「似ている」という動作で、∧は積集合である。こういう表現で曖昧さをなくせば、意味論も機械的に処理できると思われたが、そこには落とし穴があった。

言葉をベクトルで表現して行列計算する

このように外部の世界と単語が1対1に対応し、言語は世界の写像であり、文はその計算だというのが、ウィトゲンシュタインの『論理哲学論考』の立場だったが、これを英訳したラムゼーは批判した。

たとえば「蠅が飛ぶ」という命題が真か偽かを決めるには、蠅が何を意味するかを厳密に定義しなければならない。それがテーブルの上の蠅をさすのか、その蠅と同じ種を示すのか、それとも世界の蠅一般を意味するのかといった定義で、命題の真偽は変わってしまう(世界には飛ばない蠅もいる)。本質的な問題はこうしたカテゴリーで、それは個人が恣意的に決めるので、意味の曖昧さはなくすことができない。

こういう行き詰まりを打開するために出てきたのが、分布意味論である。これは言葉の意味は外部の世界との対応ではなく、その言葉の前後の文脈で決まるという考え方で、これをコンピュータに実装したのがLLMである。たとえば

 彼はポットのコーヒーをカップに注いで一杯にした

という文で「一杯になったのはポットかカップか」という問題をチャットGPTに出すと、こう答える:
一般的な読み方としては「カップを一杯にした」と考えるのが自然です。「ポットを一杯にした」と解釈すると、ポットからコーヒーを注いだ動作と矛盾するので、ポットのコーヒーが減るのが通常です。

人間なら実際にカップに注ぐ動作を思い起こすが、コンピュータにはそういう意味はわからないので、前後の文脈から矛盾のない答を推定する。こういう推論をコンピュータに実装するには、言葉の意味を辞書との1対1対応ではなくベクトルで定義する。このベクトル空間はGPT-4の場合には数万次元なので、言葉の意味は多次元ベクトルで分散表現される。これを2次元で表現すると、図のようになる。

image1
分散表現

たとえばLondonという言葉はEnglandと同じ文によく出てくるので、それと近い位置に配置される。RomeはItalyの近くに配置され、その関係はLondonとEnglandの関係と同じになる。文はベクトルとベクトルをかける数値計算だから行列計算(線形変換)になる。たとえば

 イギリスの首都は○○

という文の○○に入る言葉をGPTが訓練データから検索すると、「イギリス」と「首都」にもっとも近い言葉(出現確率確率が最高の)は「ロンドン」なのでそれを入れる…というように次に出てくる確率の高い言葉を入れ、それを入力として次の言葉を検索する…というフィードバックをくり返すので、膨大な計算資源が必要になる。

言葉はルールではなくパターンである

ここでは辞書も文法も必要ない。意味はベクトルで表現され、文法は単なる語順なのでルールは必要ない。LLMが学習しているのは、ルールではなくパターンなのだ。画像処理や音声認識と同じニューラルネットによるパターン認識を言語に応用した発想が画期的だった。

しかしこれは人間の脳内でおこなわれている処理とはまったく違う。脳のニューロンは半導体のGPUより処理速度は大幅に劣るが、多くのパターンをシナプスで並列処理している。LLMはそのパターン認識を超高速でまねているが、脳は数値計算しているわけではないので、原理はまったく違う。

ただ機能的には、公務員などのやっている定型的な文書作成にはこれで十分なので、ホワイトカラーの8割は代替できるだろう。日本の最大の問題は、そういう雇用の流動化ができるかどうかである。