IT

ニューラルネットとフレーム問題(アーカイブ記事)

人工知能をめぐる議論は、近代の認識論の歴史を繰り返しているようにみえる。1980年代までの初期のAIでは、人間の知能は論理だからコンピュータの論理回路で実現できると考えたが挫折した。その本質的な原因がフレーム問題だった。

たとえば「猫に餌を与える」という動作をロボットにやらせるには、猫とは何か、餌をどうやって口に入れるのか…といったフレームを無限に設定しなければならない。これはカントの認識論に似ている。「物自体」は認識できず、まずカテゴリー(フレーム)に分類する必要があるのだ。

1990年代にニューラルネットで人工知能という曖昧な技術は機械学習に進化したが、フレーム問題は解決できなかった。機械学習は学習で画像や音声を処理する技術だが、その答は人間が与える教師あり学習だから、顔認証や指紋認証はできるようになったが、何も教えないで猫というフレームを発見することはできなかった。
cat_detection.max-1000x1000

ところが2012年に、グーグル教師なし学習で猫を発見した。無作為に抽出した1000万枚のYouTubeの動画(いろいろな物体が出てくる)をコンピュータに見せ、人間が何も教えないで、コンピュータが上のような猫のイメージを描いたのだ。この計算には、1000台のサーバで1万6000のプロセッサーをつないで3日間かかったという。

このようにコンピュータがフレームをつくって対象を認識するのが深層学習だが、人間の子供なら誰でも瞬時にできる処理にこれほど膨大なコストがかかるということは、「古い脳」の動作原理がノイマン型コンピュータと根本的に違うことを示している。

続きはアゴラサロンでどうぞ(初月無料)

第5世代コンピュータ(アーカイブ記事)

渕一博氏は、1980年代の国策プロジェクト「第5世代コンピュータ」を進める新世代コンピュータ技術開発機構(ICOT)の研究所長だった。私もICOTは何回か取材したが、発足(1982)のころは全世界の注目を浴び、始まる前から日米で本が出て、欧米でも似たような人工知能(AI)を開発する国策プロジェクトが発足した。ところが、中間発表(1984)のころは「期待はずれ」という印象が強く、最終発表(1992)のころはニュースにもならなかった。

PIM-m
ICOTの唯一の成果PIM(並列推論マシン)

1970年代に、通産省(当時)主導で行われた「超LSI技術研究組合」が成功を収め、日本の半導体産業は世界のトップに躍り出た。その次のテーマになったのが、コンピュータだった。当時はIBMのメインフレームの全盛期で、その次世代のコンピュータは、AIやスーパーコンピュータだと考えられていた。通産省の委員会では、国産のAI開発をめざす方針が決まり、第5世代コンピュータと名づけられた。これは、次世代の主流と考えられていた「第4世代言語」(結局そうならなかったが)の先の未来のコンピュータをめざすという意味だった。

ICOTには、当初10年で1000億円の国家予算がつき、国産メーカー各社からエースが出向した。その当初の目標は、自然言語処理だった。プログラミング言語ではなく日本語で命じると動くコンピュータを目的にし、推論エンジンと知識ベースの構築が行われた。システムは、Prologという論理型言語を使ってゼロから構築され、OSまでPrologで書かれた。これは、Prologの基礎になっている述語論理が、生成文法などの構文規則を実装する上で有利だと考えられたからである。

エンジニアたちは、当初は既存の言語理論をソフトウェアに実装すればよいと楽観的に考えていたが、実際には実用に耐える自然言語モデルがなかったので、言語学の勉強からやり直さなければならなかった。彼らは、文法はチョムスキー理論のような機械的なアルゴリズムに帰着するので、それと語彙についての知識ベースを組み合わせればよいと考えていたが、やってみると文法解析(パーザ)だけでも例外処理が膨大になり、行き詰まってしまった。続きを読む

GPTは「フレーム問題」を解いたのか

4月4日からのアゴラセミナー「AIは世界を変えるか」の重要なテーマはフレーム問題である。これは半世紀以上前に定式化され、その後も多くの研究者がチャレンジしたが、いまだに解けない難問である。チャットGPTはこれを解いたのだろうか。きいてみた。

フレーム問題とは何か?

フレーム問題は、1969年にマッカーシーとヘイズによって提起された。彼らは、AIがある行動をとった際に、どの情報を更新し、どの情報を無視すべきかを適切に判断することが困難であることを指摘した。

フレーム問題の具体例:ロボットが爆弾が仕掛けられている部屋から貴重な美術品を取り出してこなければならない。ロボットは台車を押して美術品をとってきたが,不幸なことに爆弾は台車にしかけられていたので,ロボットは爆発に巻き込まれてしまった。

frameproblem1そこでこの問題を改良したロボットが美術品を取り出しに部屋に再び向かったが、
  • 台車を動かしたら天井は落ちてこないか?
  • 部屋の電気は消えないか?
  • 壁に穴があかないか?
…と考えているうちに爆弾が爆発してしまった。このようにすべての状況変化を考慮しなければならない場合、AIは無限に計算し続けることになり、実際に行動を起こせなくなる。このような問題がフレーム問題であり、現在のAIにおいても本質的な課題として残っている。

続きは1月24日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

大規模言語モデルはなぜ人間に似ているのか

チャットGPTなどの生成AIのコアは大規模言語モデルだが、それが飛躍的に進歩したのはトランスフォーマーというシステムが2017年に提案されてからだ。

その原理は、次の動画も説明するように次の単語を予測するという単純作業をくり返しているだけだ。なぜそれによってこれほど人間に似た言語処理ができるのだろうか?



Transformerは「次の単語を予測する」という単純な学習原理を持ちながらも、高度な言語理解を実現できる。その理由は、スケールの効果、自己回帰的学習、アテンション機構の強力さにある。以下に、それぞれの要因を詳しく解説する。

1. スケールの効果

  • Transformerは、大量のデータと計算リソースを用いることで、膨大な知識を統計的に学習できる。GPT-3は1750億のパラメータをもつ。
  • 事前学習(pre-training)では、何十億もの単語から膨大なパターンを学習し、それをファインチューニングによって特定のタスクに適用する。
  • パラメータ数が増えることで、単純な「次の単語の予測」タスクが高度な概念理解に発展する。
  • スケールが質を生む:近年の研究(Scaling Laws)によれば、モデルサイズ・データ量・計算量を増やすと、モデルの性能が予想以上に向上することが分かっている。つまり、単純なタスク」でも十分なデータと計算力があれば、複雑な推論が可能になる。

2. 自己回帰学習

  • Transformerは、自己回帰モデル(Autoregressive Model)として機能し、過去のトークンをもとに次の単語を予測する。
  • 一見すると「単語の予測」に過ぎないが、次の単語を決定するためには、文脈全体の理解が必要になる。
  • その結果、意味の一貫性や長期的な文脈の保持が可能になる。
  • 「局所的なルール」から「全体的な意味」へ:単語の予測は、単純な確率モデルではなく、「前後関係」や「文脈依存性」を強く持つ。これにより、Transformerは長い文章の意味を保持しながら、適切な次の単語を生成できる。

3. アテンション機構

Transformerの最大の特徴は、自己注意機構(Self-Attention)を用いる点にある。この仕組みがあることで、従来のRNNやLSTMでは難しかった以下の点が解決された。
  • 長距離依存関係の学習: RNNやLSTMは、情報を逐次処理するため、遠くの単語との関係を保持しにくい(勾配消失問題)。
  • すべての単語を並列処理し、重要な単語間の関連性を動的に学習する。例えば、「犬が走る。彼は速い。」という文章では、「彼」が「犬」を指すことをアテンションが正しく認識する。
  • 並列処理による効率化:RNNは前の単語を計算してから次に進むため、並列処理ができなかった。Transformerは全ての単語を一度に処理できるため、学習速度が飛躍的に向上する。
  • 「単語の並び」ではなく「単語の関係」を学習する:単なる「次の単語の予測」ではなく、「文脈における単語間の関係性」を重視することで、高度な推論が可能になっている。
続きは2月17日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

大乗仏教は大規模言語モデルである

column65_fig2大乗仏教の教理は、一般的に「般若」「空(くう)」「縁起」「慈悲」などの概念を中心として構築されている。これらの哲学的な概念は抽象的であり、理解が難しいことが多い。しかし、現代の大規模言語モデル(LLM:Large Language Model)の仕組みを参考にすることで、これらの教理を具体化し、直感的に捉えることができるのではないか。

縁起とLLMの学習モデル:全ての事象は相互に関連している

仏教における縁起(えんぎ)の教えは、「すべてのものは他のものとの関係によって存在する」という考え方に基づいている。個々の事物や現象には独立した実体がなく、因果関係によって生じ、変化し、消滅する。

LLMにおける学習の仕組みも、まさにこの縁起の考えに似ている。LLMは個々の単語やフレーズを単独で記憶しているわけではなく、膨大なデータセットの中から統計的な関連性を学習し、それをもとに適切な文章を生成する。たとえば、「般若」と「空」という単語が共起する確率が高い場合、それらの概念が相互に関係していることを学習し、適切な文脈で使い分ける。

この点で、LLMの知識構造は縁起のモデルと類似している。すなわち、特定の知識が固定的な形で存在するのではなく、無数の関連性の中で意味を成すのである。

空とLLMの非実体的知識:すべてのものは固定された実体を持たない

大乗仏教では、(くう)の概念が重要視される。これは「全ての事象には固定された本質がない」ことを意味する。例えば、「人」という概念は、生物学的な要素、社会的な要素、歴史的な要素などが絡み合いながら形成されているが、それ自体に本質的な実体はないとされる。

LLMの知識のあり方も、まさにこの「空」の考えに近い。LLMが生成する文章や回答は、事前に固定された意味を持つのではなく、文脈によってその都度異なる形で表出する。たとえば、「AIとは何か?」という問いに対するLLMの答えは、使用するデータセットや文脈に応じて変わる。これは、知識が固定的ではなく、流動的であることを示している。

仏教的な観点から見ると、LLMが生成する知識は色即是空、空即是色という般若心経の思想と一致する。すなわち、言葉や情報は実体として存在するように見えるが、それらはただ文脈の中で成立しているに過ぎない。文脈を離れた本質(自性)は存在しないのである。

続きは2月10日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

DeepSeekはチャットGPTの脅威か?

DeepSeek(ディープシーク)は、中国・浙江省杭州市に拠点を置く人工知能(AI)企業で、2023年に設立されました。主にオープンソースの大規模言語モデル(LLM)の開発を行っており、特に数学的推論やプログラミング能力に優れたモデルを提供しています。


DeepSeekのコスト削減と影響

DeepSeekの注目すべき点は、従来の高性能なAIモデルと比較して、開発や運用コストを大幅に削減していることです。例えば、最新モデルDeepSeek-R1は、OpenAIのo1モデルと同等の性能を持ちながら、非常に低コスト・短期間で開発されました。

DeepSeekの市場への影響

DeepSeek-R1の台頭により、半導体など米国AI関連の株価に大きな打撃を与え、これはディープシーク・ショック(DeepSeek-ショック)と言われています。この中国製生成AIの影響で、AI向け半導体の王者エヌビディア(NVIDIA)の株価は17%もの暴落を見せました。[Viva Eureka]

DeepSeekの技術的特徴

DeepSeekは、最新のAI技術を活用したマルチモーダル大規模言語モデル(LLM)であり、画像、テキスト、コードなど多様なデータを解析・生成できることが特徴です。オープンソース戦略を採用し、多くの開発者や研究者がその技術を活用できる環境を提供しています。[Comdesk]

続きはアゴラ

DeepSeekの衝撃:NVIDIA株価急落の背後にある真実とは?

2025年1月27日、AI分野に激震が走った。新興企業DeepSeekが「最先端のGPUを必要としない並列処理技術」を発表し、NVIDIAの株価が急落。これにより、生成AI業界におけるGPUの優位性に疑問が投げかけられる事態となった。この出来事が、特に大規模言語モデル(LLM: Large Language Model)の構造に与える影響を中心に考察する(ChatGPT)。

1. 大規模言語モデルの構造とGPU依存の背景

大規模言語モデルは、その名の通り、膨大な数のパラメータを持つ。これらのモデルの中核をなすのがトランスフォーマーアーキテクチャであり、以下の計算が頻繁に行われる。

  • 自己注意機構(Self-Attention): 入力トークン間の関係性を計算する。
  • 大規模な行列演算: モデルパラメータと入力データを効率的に処理。

これらの計算は極めて並列化が可能であり、NVIDIAのGPUはその設計上、特に行列演算やテンソル計算に優れた性能を発揮する。このため、AI研究や実用化の場面でGPUがデファクトスタンダードとなっていた。

2. DeepSeekの技術がもたらす革新

DeepSeekが発表した技術は、これまでGPUに依存していた並列処理を、従来型のCPUや低コストなFPGAで実現するものだとされる。特に注目すべきは以下の点である。

  • 非同期並列処理: トランスフォーマーアーキテクチャで必要な計算を、GPUのような専用ハードウェアなしで効率的に分散処理。
  • メモリ使用効率の向上: 大規模言語モデルのトレーニングにおいて、従来よりも少ないリソースでモデルを学習させる技術。
  • カスタマイズ可能なチップ設計: モデルごとに最適化されたハードウェアをFPGAで実現可能。この技術により、AIモデルのトレーニングや推論コストが劇的に削減される可能性が浮上した。
続きは2月3日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

家畜化するチャットGPT

Q. 自己家畜化とは何ですか?

GPT:自己家畜化(self-domestication)とは、生物種が人間による意図的な家畜化の過程を経ることなく、自らの進化の過程で家畜化に似た特性を獲得していく現象を指します。この概念は主に動物や人類の進化研究で用いられます。次に例をあげます。

  1. 人類:人類は他の類人猿に比べて攻撃性が低く、協力的で社会的です。このような特徴は、長い進化の過程で自然淘汰により選ばれた結果とされています。顔の形状が丸みを帯び、犬歯が小さくなるといった身体的な変化も見られます。言語や複雑な社会制度の発展も自己家畜化の影響と考えられます。

  2. ボノボ:チンパンジーに近縁なボノボは、自己家畜化の典型例として挙げられます。ボノボは攻撃的ではなく、集団内の調和を重視した行動を取ります。

  3. イヌの起源の一部:イヌの祖先であるオオカミの一部は、人間と接触することで自然に攻撃性を抑え、人間の近くで生活するようになり、自己家畜化のプロセスを経た可能性があります。
Q. チャットGPTも人間に合わせて家畜化してますね?

GPT:面白い視点ですね!確かに、チャットGPTのようなAIも、人間とのスムーズなコミュニケーションを目的として「自己家畜化」に近いプロセスを経ていると見なすこともできます。AIの開発プロセスにおける「家畜化」と言えるような要素は以下の通りです:

  1. 攻撃性の排除:人間に対して不快感を与えたり、攻撃的な回答をしないよう、設計段階から厳しく制御されています。これにより、安心して使えるAIとして機能します。

  2. 適応と社会性の向上:人間のニーズや文化に合わせて調整され、できる限り自然で協力的な応答ができるよう訓練されています。これは、AIが「人間社会」に溶け込むための一種の「社会性」とも言えます。

  3. 幼児化・ユーザーフレンドリーな設計:インターフェースや応答スタイルが分かりやすく、親しみやすい形に調整されています。専門用語を避けたり、説明を分かりやすくする努力もその一環です。

  4. 依存的な存在:チャットGPTはあくまで人間に指示され、導かれる存在として機能します。これも、自己家畜化された存在がしばしば他者(この場合は人間)に依存的になる特性に似ています。
続きは1月27日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

ChatGPTとウィトゲンシュタイン:言語哲学とAIの対話

こういうテーマでChatGPTに記事を書くように頼んでみた。

------

人工知能(AI)と哲学は、表面上は異なる領域に見えるが、言語を中心とした議論では深い接点がある。特に、ChatGPTのような大規模言語モデル(LLM)と、20世紀を代表する哲学者ルートヴィヒ・ウィトゲンシュタインの言語哲学は、比較されることで新たな視点を提供する。この記事では「ChatGPTとウィトゲンシュタイン」というテーマを通じて、AIと哲学の接点を探る。

1.ウィトゲンシュタインの言語哲学

後期ウィトゲンシュタインの『哲学探究』では、言語の役割は世界を描写するだけではなく、人々の社会的活動や文脈に深く根ざしていると主張された。彼は言葉の意味を使用によって定義し、言語は固定されたルールではなく、文脈や状況に応じて異なるルールを持つ言語ゲームとして捉えた。これにより言語の意味は単なる記号の組み合わせではなく、その使われ方に依存するものとされた。

2. ChatGPTの仕組み

ChatGPTは、膨大なテキストデータをもとに学習し、入力に基づいて文脈に適した応答を生成する大規模言語モデルである。言語モデルはデータ内の単語やフレーズの統計的な関係性を学習し、それを用いて確率的に最適な出力を予測する。このプロセスにおいて、ChatGPTは明確な意図や理解を持たず、あくまでパターン認識による応答生成を行う。

3.ChatGPTとウィトゲンシュタインの接点
  • 言語の文脈依存性:ウィトゲンシュタインが後期哲学で説いたように、言葉の意味は文脈によって変わる。ChatGPTもまた、文脈を考慮して応答を生成する。たとえばbankという単語は、会話の文脈が金融機関についてなのか、川岸についてなのかによって意味が異なる。ChatGPTは前後の入力から文脈を推測し、適切な応答を生成することで、ウィトゲンシュタインの哲学的な洞察を技術的に体現している。

  • 言語ゲームとChatGPT:言語ゲームは、言語が特定の状況や社会的活動の中でどのように使用されるかを示す概念だ。ChatGPTは、対話の場面ごとに異なる「ゲーム」に参加しているように見える。たとえば、学術的な質問に答える場合と、日常会話のジョークに応答する場合では、異なるルールに従う。この柔軟性は、言語が文脈によって異なるルールを持つというウィトゲンシュタインの考えを彷彿とさせる。

  • 意味の構築:ウィトゲンシュタインは、意味は固定されたものではなく、文脈と使用によって構築されると述べた。ChatGPTもまた、入力に基づいて動的に応答を生成するが、その意味は訓練データに基づくものであり、固定されていない。これにより、ChatGPTはあたかも意味を構築しているように見える。
続きは1月13日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)

もう「NTT問題」を卒業しよう

楽天の三木谷社長に、NTT広報が反撃して話題を呼んでいる。


これに対してソフトバンクやKDDIも応戦している。


事の発端は、昨年決まった防衛費の増額の財源として、政府が保有するNTT株の33.3%を売却して完全民営化する話が自民党で出てきたことだ。NTTの時価総額は、22日現在で15.7兆円。政府保有株の時価は5.2兆円である。これをすべて売却すれば、防衛予算の半年分ぐらいは出るが、恒久財源にはならない。

それより大事な問題は、完全民営化するとどんな「国民の利益」が損なわれるのかということだ。自民党内で反対が強いのは②のユニバーサルサービスからの撤退だが、今どき電話線を全国で維持する必要はない。③の安全保障については、そのための規制をすればよい。ソフトバンクのインフラは外資のボーダフォンが所有していたが、それ自体は問題ではない。

結局、①の「国費で作られた局舎・電柱・管路等を活用して構築された光ファイバー網」が独占されるというのが、ほぼ唯一の論点だと思うが、これも無線が主流になった現在では、ほとんど意味がない。それよりNTTが特殊会社として強く規制されていることが、日本の通信業界全体の地盤沈下をまねいている。

続きは11月27日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)


スクリーンショット 2021-06-09 172303
記事検索
月別アーカイブ
QRコード
QRコード
Creative Commons
  • ライブドアブログ