2025年1月27日、AI分野に激震が走った。新興企業DeepSeekが「最先端のGPUを必要としない並列処理技術」を発表し、NVIDIAの株価が急落。これにより、生成AI業界におけるGPUの優位性に疑問が投げかけられる事態となった。この出来事が、特に大規模言語モデル(LLM: Large Language Model)の構造に与える影響を中心に考察する(ChatGPT)。

1. 大規模言語モデルの構造とGPU依存の背景

大規模言語モデルは、その名の通り、膨大な数のパラメータを持つ。これらのモデルの中核をなすのがトランスフォーマーアーキテクチャであり、以下の計算が頻繁に行われる。

  • 自己注意機構(Self-Attention): 入力トークン間の関係性を計算する。
  • 大規模な行列演算: モデルパラメータと入力データを効率的に処理。

これらの計算は極めて並列化が可能であり、NVIDIAのGPUはその設計上、特に行列演算やテンソル計算に優れた性能を発揮する。このため、AI研究や実用化の場面でGPUがデファクトスタンダードとなっていた。

2. DeepSeekの技術がもたらす革新

DeepSeekが発表した技術は、これまでGPUに依存していた並列処理を、従来型のCPUや低コストなFPGAで実現するものだとされる。特に注目すべきは以下の点である。

  • 非同期並列処理: トランスフォーマーアーキテクチャで必要な計算を、GPUのような専用ハードウェアなしで効率的に分散処理。
  • メモリ使用効率の向上: 大規模言語モデルのトレーニングにおいて、従来よりも少ないリソースでモデルを学習させる技術。
  • カスタマイズ可能なチップ設計: モデルごとに最適化されたハードウェアをFPGAで実現可能。この技術により、AIモデルのトレーニングや推論コストが劇的に削減される可能性が浮上した。
続きは2月3日(月)朝7時に配信する池田信夫ブログマガジンで(初月無料)