ことばの意味を計算するしくみ 計算言語学と自然言語処理の基礎 (KS情報科学専門書)
4月4日からアゴラセミナー「AIは世界を変えるか」がスタートするが、これはAIのプログラミング講座ではなく、ハウツーものでもない。テーマは言語の本質である。

チャットGPTで使われている大規模言語モデル(LLM)は、言語学が70年以上かかって解けなかった謎をコンピュータが解いた画期的なイノベーションだ。その謎とは、人間は言葉の意味をどうやって知るのかという問題である。たとえば

 Time flies like an arrow.

という言葉を初期のAIは「時蠅は矢を好む」と訳した。これが間違いであることを証明するには「時蠅」という蠅がいないことを示す必要があるが、それはコンピュータにはできない。もしそういう蠅がいたら、likeは前置詞ではなく動詞になり、文の構造が変わってしまう。

こういう曖昧さを解決するため、意味論と文法理論(統辞論)を区別する伝統的な言語学に対して、両者を統一的に説明する多くの理論が提案された。その代表がモンタギュー意味論である。これは上の文を

 T(x)→F(x)∧L(x)

のような記号論理で表現するものだ。ここでT(x)は時間を示し、F(x)は「飛ぶ」、L(x)は「似ている」という動作で、∧は積集合である。こういう表現で曖昧さをなくせば、意味論も機械的に処理できると思われたが、そこには落とし穴があった。

続きは3月17日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)