たとえば「猫に餌を与える」という動作をロボットにやらせるには、猫とは何か、餌をどうやって口に入れるのか…といったフレームを無限に設定しなければならない。これはカントの認識論に似ている。「物自体」は認識できず、まずカテゴリー(フレーム)に分類する必要があるのだ。
1990年代にニューラルネットで人工知能という曖昧な技術は機械学習に進化したが、フレーム問題は解決できなかった。機械学習は学習で画像や音声を処理する技術だが、その答は人間が与える教師あり学習だから、顔認証や指紋認証はできるようになったが、何も教えないで猫というフレームを発見することはできなかった。

ところが2012年に、グーグルが教師なし学習で猫を発見した。無作為に抽出した1000万枚のYouTubeの動画(いろいろな物体が出てくる)をコンピュータに見せ、人間が何も教えないで、コンピュータが上のような猫のイメージを描いたのだ。この計算には、1000台のサーバで1万6000のプロセッサーをつないで3日間かかったという。
このようにコンピュータがフレームをつくって対象を認識するのが深層学習だが、人間の子供なら誰でも瞬時にできる処理にこれほど膨大なコストがかかるということは、「古い脳」の動作原理がノイマン型コンピュータと根本的に違うことを示している。
続きはアゴラサロンでどうぞ(初月無料)