DeepSeek, China, OpenAI, NVIDIA, xAI, TSMC, Stargate, and AI Megaclusters | Lex Fridman Podcast #459

[レックス・フリードマン]

以下はディラン・パテルとネイサン・ランパートとの対話です。ディランは「Semianalysis」を運営しており、半導体やGPU、CPU、AIハードウェア全般を専門に扱う、よく知られたリサーチ兼分析企業の代表です。ネイサンはアレンAI研究所のリサーチサイエンティストで、AIに関する素晴らしいブログ「Interconnects」の著者でもあります。お二人ともAIの分野で専門家や研究者、エンジニアから非常に高く評価され、読まれ、また耳を傾けられている存在です。個人的に僕は二人の大ファンでもあるので、「DeepSeekの瞬間」がAIの世界をちょっと揺るがせたタイミングを利用して、二人と腰を据えてすべてを整理してみようと思ったわけです。DeepSeek、OpenAI、Google、XAI、Metaanthropic、Nvidia、TSMC、そして米中や台湾との関係、さらに現在AIの最先端で起きているあらゆることに至るまで、この対話ではAI業界の重要な側面を深く掘り下げています。かなりテクニカルな部分にも踏み込みますが、AI分野の外の方でも理解できるように用語を定義し、大事な概念を説明し、略語をきちんと綴り、そのうえで抽象度や詳細レベルを段階的に行き来するよう努めました。メディアには「AIとは何か、何ではないか」について多くの誇大広告が飛び交っていますが、このポッドキャストの目的の一端は、その大げさな宣伝やデタラメ、低解像度の分析を乗り越えて、仕組みがどうなっているのか、そしてそれが何を意味するのかを詳しく語ることにあります。

ここで、もし許されるなら、新たにリリースされたOpenAIの「O3 Mini Reasoning Model」についてコメントさせてください。僕たちが対話中にリリースを予想していたモデルで、実際この対話の直後にリリースされました。その性能とコストは事前の予測と大体同じでした。僕たちが述べたように、OpenAI O3 Miniは確かに素晴らしいモデルですが、DeepSeek R1もベンチマーク上では同等の性能を示し、依然としてR1の方が安価であることは言及しておきたいと思います。またR1は推論過程(チェーン・オブ・ソート)を可視化してくれるのに対し、O3 Miniは推論を要約形でしか表示しません。さらにR1はオープンウェイトですが、O3 Miniはそうではないという点があります。ちなみに個人的にO3 Miniを試してみる機会がありましたが、感触としては特に「O3 Mini High」がR1よりも優れていると感じた部分もあります。とはいえ、僕自身の使い方としてはプログラミングにはClaude Sonnet 3.5がベストだと思っていて、ややこしい問題にぶつかったときだけO1 Proを使ってブレインストーミングするといった具合です。いずれにしても、これからもっと優れたAIモデルが登場してくるでしょうし、米国や中国の企業から推論特化モデルが出てくるでしょう。それらは今後もコストをどんどん下げていくと思いますが、「DeepSeekの瞬間」は本物だと僕は感じています。5年後になっても、「あれはテック史の重要な転換点だった」と振り返られるでしょう。地政学的なインパクトがあることはもちろんですが、それ以外にもさまざまな理由があります。今回の対話でも多角的な視点からそれを詳しく議論しています。これはレックス・フリードマン・ポッドキャストです。サポートしたい方は概要欄にあるスポンサーをチェックしてみてください。それでは皆さん、ディラン・パテルとネイサン・ランパートをお迎えしましょう。

多くの人々が中国のDeepSeek AIモデル、具体的にはDeepSeek V3とDeepSeek R1を理解したいと思っているので、まずその概要から整理してみましょう。ネイサン、DeepSeek V3とDeepSeek R1がどんなもので、どう動作し、どのようにトレーニングされているのか、まず大きな視点から説明して、その後細かいところに踏み込んでいきましょうか。

[ネイサン・ランパート]

はい。DeepSeek V3というのは、中国に拠点を置くDeepSeekが開発した新しいMixture of Experts型のトランスフォーマー言語モデルです。モデルには興味深い技術的特徴がいくつかあり、その詳細にも後で触れます。大まかに言えば、これはオープンウェイトのモデルであり、ChatGPTのように指示に対応できるインストラクションモデルでもあります。また、いわゆるポストトレーニングを施す前の「ベースモデル」というものも同時にリリースされました。通常、現在多くの人が使うのはインストラクションモデルの方で、さまざまなアプリケーションで提供されていますね。リリースされたのが12月26日あたり、年末のその週だったと思います。その数週間後、1月20日頃にDeepSeekはDeepSeek R1という「推論モデル」をリリースしており、これが今回の議論を一気に加速させました。この推論モデルはDeepSeek V3と多くのトレーニング工程を共有しているのですが、ややこしいのは「V3」というベースモデルからチャットモデルを作る工程があり、さらに別の工程を経て推論モデルを作る、というふうに区別があることです。AI業界では今、こうした名前や呼称の整理が難題になっていますよね。OpenAIも自分たちのモデル名をネタにしていますが、GPT-4OだのOpenAI01だの、本当にいろんなモデルがあって混乱します。そこで今回は、それぞれが何であるかを整理しながら、トレーニングの技術的な詳細にも高いレベルから深く入り込んでいきましょう。

[レックス・フリードマン]

ほかにもいろいろ語りたい方向はあるけれど、まずは「オープンウェイト」とは何か、一般的にオープンソースにはどんな種類があるかというところを整理してみましょうか。

[ネイサン・ランパート]

そうですね。ChatGPTが2022年末に登場してから、この議論は一層注目を集めるようになりましたが、AIにおいては以前から続いている話題です。オープンウェイトという言葉は、言語モデルの重み(ウェイト)のデータがインターネット上で入手可能で、誰でもダウンロードできる状態を指すのが一般的です。これらのウェイトにはさまざまなライセンスが付いていて、つまりどういう条件でモデルを使えるかを定めています。オープンソースソフトウェアの歴史から引き継いだライセンスもあれば、企業独自のライセンス(たとえばLlama、DeepSeek、Quen、Mistralなど)も存在しています。ややこしいのは、同じ「オープンウェイト」と言っても、モデルによってライセンス条件が異なる点です。

「オープンソースAI」の定義や精神性については、まだ統一された合意が得られていません。オープンソースソフトウェアには「自由に改変できる」「自由に別のプロダクトとして使える」「利用制限がない」といった豊かな歴史がありますが、それがAIの場合にどうなるかは現在進行形で議論されているところです。僕が所属するアレンAI研究所(Allen Institute for AI)のような非営利組織では「AIを誰でも使えるようにオープンにする」ことを目指していて、「真のオープンソースとは、学習データやトレーニングコードを含めてすべて公開された状態だ」と考えています。ただし、コミュニティ全体で完全な合意があるわけではないんですね。

特にこの後、DeepSeek V3のコスト見積もりなどを話すときに出てくるGPU時間やトレーニングコードといった話題が出ますが、もし訓練用のデータが非公開のままだと、正確に再現しようとするとものすごく高額になってしまうんです。同様に、コードがないと効率的なトレーニング手法を再現するのはかなり難しい。ですから、僕たちが本当に「オープンソースモデル」と呼びたいのは、学習データやコード、そしてウェイトまでもフルで公開されたものということになります。ただ、それが現状なかなか実現できていないのも事実です。

[レックス・フリードマン]

それにしても、DeepSeekはフロンティアモデルの中では比較的「オープン」なほうですよね。完全な意味でのオープンソース、つまり「コードもデータも全部公開された状態」にはまだ至っていないかもしれないけれど、それでもウェイトの公開に加えて技術レポートもかなり詳細に書かれている。オープンソースコミュニティからすると、いろいろなバリエーションがある中でDeepSeekは「良い側」に入るというイメージですね。

[ネイサン・ランパート]

そうですね。DeepSeekはAIの知見を広めるためにかなり貢献していると思います。論文の内容も細部まで詳細に書かれていますし、自分たちの手法を他のチームが取り入れられるように非常に行動的だと思います。「DeepSeek V3」のプリトレーニング論文においても、CUDAレイヤー以下のNvidiaチップレベルで効率化を図ったという内容がかなり明確に書かれていました。僕自身はそういったレイヤーの実装をやったことはないですが、世界にそういうことをきちんとやれる人は限られています。DeepSeekにはそういう人たちがいるし、米国内の最先端ラボにもそういった人はいますが、多くはないですね。

[レックス・フリードマン]

オープンウェイトのもう一つの重要な意味合いとして、「中国という国家がアメリカのデータを盗むのではないか」といった懸念とどう関連しているのか、一般の人が理解する手助けをしたいんですが、モデルのウェイトが公開されることはデータの盗用とは関係があるのでしょうか?

[ネイサン・ランパート]