DeepSeek創業者梁文鋒氏の論文が『Nature』表紙に登場

2025/09/18 09:17

最近、AI分野で注目を集める中国のスタートアップDeepSeekの創業者、梁文鋒氏が対応著者として関わった論文が、国際的に権威ある科学誌『Nature(自然)』の表紙を飾った。この論文は、DeepSeekチームが共同で執筆したもので、DeepSeek-R1という大規模言語モデル(LLM)の推論能力に関する研究を扱う。2025年1月に公開された初期版論文から進化したこの最新版では、モデルの訓練詳細がさらに公開され、公開当初に指摘された蒸留手法への疑問にも正面から対応した点が特徴だ。DeepSeek-R1は、世界で初めて独立した査読プロセスを経た主流のLLMとしても知られる。『Nature』誌は、この論文を評価し、「現在、ほぼすべての主流大モデルが独立した査読を受けていないこの空白を、DeepSeekがついに打破した」と述べている。

DeepSeek-R1は、数学やコーディングなどの推論タスクに特化したモデルで、OpenAIのo1モデルと同等の性能を発揮する。中国のDeepSeek社がわずか30万米ドル(約4500万円)という低コストで開発した点が、世界を驚かせた。モデルは「オープンウェイト」形式で公開されており、AIコミュニティのプラットフォームHugging Faceで1090万回以上のダウンロードを記録し、最も人気のモデルとなっている。

論文の核心は、LLMの推論能力を強化するための訓練手法にある。従来の手法では、人間による注釈付きのデモンストレーション(監督付きファインチューニング:SFT)が必要だったが、DeepSeek-R1はこれを排除し、純粋な強化学習(RL)のみで推論能力を促進するアプローチを採用した。具体的には、DeepSeek-R1-ZeroというモデルをRLで訓練し、自己検証、反省、長大な思考連鎖(Chain-of-Thought:CoT)の生成といった高度な推論行動を自然に引き出した。これにより、人間定義の推論パターンの制約を超え、モデルが新たな推論能力を自発的に発展させる可能性を示した。

さらに、DeepSeek-R1は多段階学習フレームワークを導入。拒否サンプリング、RL、監督付きファインチューニングを組み合わせ、数学、コード、推論タスクで優れた性能を実現した。訓練には、主に米国輸出規制下のNvidia H800チップを使用した点も注目される。この手法は、AIの一般推論という長年の課題に対するブレークスルーとして評価されている。

DeepSeek-R1の論文は、arXivで2025年1月にプレプリント版が公開された後、査読を経て『Nature』に掲載された。これにより、DeepSeek-R1は世界初の査読済み主流LLMとなった。査読者からは、安全性テストの不足が指摘されたが、DeepSeekチームはこれに応じ、論文にモデル安全性の評価セクションを追加。競合モデルとの比較も含め、詳細を補完した。また、公開当初の蒸留(distillation)手法への疑問—つまり、既存モデルから知識を抽出して小規模モデルに移植するプロセス—についても、訓練の透明性を高める形で正面から回答した。

『Nature』誌の関連記事では、この査読がAIモデルの信頼性を高める先駆けになると指摘。Hugging Faceの機械学習エンジニア、Lewis Tunstall氏は、「これは歓迎すべき前例だ」とコメントしている。DeepSeekは研究コミュニティを支援するため、DeepSeek-R1-Zero、DeepSeek-R1、およびLlamaやQwenベースの6つの蒸留モデル(1.5Bから70Bパラメータ)をオープンソースで公開した。

DeepSeek-R1の成功は、中国AI企業のグローバルな競争力を象徴する。米国企業主導のAI開発が主流の中、DeepSeekは低コストで高性能なモデルを世に送り出し、株価変動を引き起こすほどのインパクトを与えた。研究者たちは、このモデルを数学から認知神経科学までの科学タスクで活用し始めている。

(中国経済新聞)