バイドゥとファーウェイ、最新のLLMオープン化への動きを披露

2025/07/2 07:30

2025年前半の最終日となる6月30日、バイドゥとファーウェイが揃ってオープンソースに関する最新の動きを発表した。

バイドゥは、47Bや3Bのアクティベーションパラメータを持つ混合専門家モデル(MoE)、および0.3Bパラメータの高密度モデルなど、大規模言語モデル(LLM)「文心」4.5シリーズ10種類を一気にリリースした上、事前学習の重みと推論コードも完全公開したと発表した。一方でファーウェイは、「盤古」の7Bパラメータ70億という高密度モデル、パラメータ720億の混合専門家モデルProMoE、そしてAscendを使用したモデル推論技術のオープン化を正式に発表した。

なおアリババはこれらに先駆けて、一連の競争力あるオープンソースLLMやモデルコミュニティー「魔搭」(ModelScope)によりAIのオープン化を進めており、テンセントのHunyuan(混元)も混合推論MoEモデル Hunyuan-A13Bや3D生成モデルなどで公開化を果たしている。

オープンソース化については、ファーウェイも長らく優先付けや迷いを経たのち、結局は大勢の流れに従うこととなった。

ファーウェイのある技術者は5月に、「盤古72Bは性能と推論コストを両立させる黄金のサイズで、業界内でAIの改良事業に最適なものだ」と述べていた。ファーウェイはこれまで対外発表がほとんどなく、盤古もオープン化されていなかったので、Ascendの演算力がについてあまり知られていなかった。モデルの状況も定かでなく、憶測が飛び交っていて、Ascendは先進的なLLMを学びきれないとの見方もあったが、Ascendの演算力は今や世界的なLLMを学べるスキルに到達している。

バイドゥとファーウェイの2社が披露したオープンソースの状況を見ると、「文心」LLM4.5シリーズはMoEアーキテクチャを対象に革新的なマルチモーダル異種モデルを掲げたものであり、LLMからマルチモード型への事前学習継続に適用され、テキストのタスクの性能を維持及び格上げし、マルチモードの理解力を大きく向上させている。こうした性能は、マルチモードの混合専門家モデルの事前学習や推論構成の学習、モードの事後学習といった基幹技術に支えられたものである。

バイドゥのデータによると、「文心」の事後学習モデル(思考のサポートやクローズ)は、様々なマルチモード基準テストでSOTAのレベルに至っている。中でも視覚常識、マルチモード推論、視覚感知など主なLLM評価で、クローズのOpenAI o1を上回っている。軽量モデルでは、文心4.5-21B-A3B-Baseテキストモデルの効果は同クラスのQwen3に相当する。

ファーウェイは今回のオープンソース化にあたり、汎用品である2種類のモデルを導入した。このうちパラメータ70億の高密度モデルは比較的容易な用途を対象とし、電話応対や知識ベースなど様々な場面で使える。またパラメータ720億という盤古Pro MoEの混合専門家モデルは、複雑な処理が必要なタスクに向いている。

ファーウェイは以前に、「盤古Pro MoEはパラメータ量が720億程度であり、160億のパラメータを有効化した場合、エキスパートネットワークの最新デザインが有効化されて『小よく大を制す』という動きを見せ、あるいは1000億レベルのモデルに匹敵する働きも示せる」と表明していた。

またアリババは、「通義」(Qwen)について2023年から200種類以上のモデルをオープン化しており、各社との競争で常に力を入れている。DeepSeekが脚光を浴びた今年の春節で、アリクラウドが3夜にわたりLLMをオープン化した。アリクラウドに近い関係者の話では、アリクラウドのLLMはすでに全部オープン化されて無料で使えるようになっているという。

Qwenの派生モデル数は今、アメリカのLlamaを上回る13万以上である。またダウンロード数は全世界で3億以上であり、AI開発プラットフォーム「HuggingFace」における2024年のLLM全ダウンロード数の30%以上を占めている。

オープンソースの最終目標はやはりビジネス化である。LLMがオープン化されても、開発者はバイドゥやファーウェイのクラウドの演算力でモデルの学習や推論、導入をすることができる。すなわち、LLMのメーカーも企業レベルのソリューションやカスタマイズサービス、API接続やクラウドサービスを提供する形で、ビジネスモデルを打ち立てることが可能である。

(中国経済新聞)