1トークンずつ書くのをやめたGemma──Googleの「DiffusionGemma」が手元のGPUで狙う毎秒1,000トークン

Google DeepMindが実験的オープンモデル「DiffusionGemma」を公開。1トークンずつ書く方式をやめ、256トークンを一括生成する拡散方式で手元のGPUでも最大4倍速。Apache 2.0で誰でも入手でき、速度と品質の割り切りを開発者目線で整理します。

Share
1トークンずつ書くのをやめたGemma──Googleの「DiffusionGemma」が手元のGPUで狙う毎秒1,000トークン

2026年6月10日、Google DeepMindが実験的なオープンモデル「DiffusionGemma」を公開しました。ライセンスはApache 2.0で、重みはHugging Faceなどから誰でも入手できます。最大の特徴は、文章を1トークンずつ順番に書く従来のやり方をやめ、まとまった長さを一括で生成する「テキスト拡散」を採り入れた点です。これにより、手元のGPU上で標準的なモデルより最大4倍速い生成をうたいます。Gemma 4をローカルで動かす流れを追ってきた開発者にとって、生成の「速さ」を別の角度から押し上げる一手です。

本記事では、何がこれまでと違うのか、どれくらい速いのか、そして実務で使う際に押さえておくべき限界までを整理します。

「下書きを一括で置いて、後から直す」生成方式

一般的なLLMは、前の単語を見ながら次の1トークンを予測し、それを繰り返して文章を作ります(自己回帰)。DiffusionGemmaはこの順序を捨て、画像生成で使われてきた拡散の考え方を文章に持ち込みました。Googleの説明によれば、まずランダムな仮のトークンを置き、文脈の手がかりを使って正しいものから順に確定させながら、複数回のパスで全体を磨き上げて完成形に近づけます。

具体的には、256トークンのブロックを1回の処理でまとめて生成し、反復的に精緻化していきます。生成中に双方向の文脈を見られるため、いったん置いたトークンを後から「ノイズに戻して直す」自己修正ができる点が、後戻りのできない自己回帰モデルとの大きな違いです。コードの穴埋め(infilling)や、前後の整合を取りながらの書き換えと相性がよい設計だといえます。

RTX 5090で毎秒700トークンという数字

速度面の主張は具体的です。1回のパスで多くのトークンを並列に確定させるため、ローカル実行時のGPUを使い切りやすく、同程度の自己回帰モデルと比べて最大4倍速いとされます。報告されている主な数値は次のとおりです。

項目内容
モデル規模26BのMoE(混合エキスパート)。推論時の有効パラメータは約3.8B
並列生成256トークンのブロックを1パスでまとめて生成
速度(H100)毎秒1,000トークン超
速度(GeForce RTX 5090)毎秒700トークン超
ライセンスApache 2.0(商用利用可)

有効パラメータが約3.8Bに抑えられたMoE構成のため、量子化すれば一般的なGPUのメモリにも載せやすく、クラウドに頼らず手元のマシンで動かす用途を想定しています。入手先はHugging Face(google/diffusiongemma-26B-A4B-it)に加え、vLLM・Transformers・MLXなどが対応済みで、llama.cppの対応も近く加わる予定とされています。

「速いが、賢さは標準Gemma 4に及ばない」という割り切り

注意したいのは、Googleが品質面のトレードオフを明言している点です。同社は「全体的な出力品質は標準のGemma 4より低い」とし、品質を最優先する本番用途には引き続き自己回帰版のGemma 4を勧めています。速さの恩恵も、大量同時アクセスをさばくクラウド配信ではなく、低同時実行のローカル・対話用途に最適化されたものだという位置づけです。

つまりDiffusionGemmaは「何にでも置き換える上位版」ではなく、速度が効く場面を選んで使う道具です。コードの穴埋めやインライン編集、素早い試行錯誤のように、応答の速さが体験を左右する局面でこそ価値が出ます。逆に、精度がそのまま成果物の質に直結する作業では、従来モデルとの使い分けが前提になります。便利さの裏で、速度を取れば品質が下がりうるという制約が指摘されている点は、導入前に押さえておきたいところです。

ローカル生成の選択肢が一段広がる

開発の現場から見ると、これは「手元で動く生成AI」の引き出しが一つ増えた出来事です。機密情報を外部に送りたくない業務や、社内環境で完結させたい内製システムでは、ローカルで動くオープンモデルが有力な選択肢になってきました。そこに、対話的な速さを稼げる拡散方式が加わったかたちです。コード補完やドラフト生成のように即応性が問われる部品をローカルのDiffusionGemmaに、最終的な品質が要る部分は上位モデルに、と役割を分ける設計が現実味を帯びます。

一方で、テキスト拡散は研究段階の技術であり、今回も「実験的」と明記されています。ベンチマーク上は標準モデルに譲る部分があり、ローカルで快適に回すにはそれなりのGPUも要ります。過度な期待は禁物ですが、自己回帰一辺倒だった文章生成に別の選択肢が実装レベルで提示された意味は小さくありません。まずは速度が効く小さなワークフローで試し、品質との釣り合いを自分の用途で見極めるのが堅実な入り方でしょう。

参照: Google「DiffusionGemma: 4x faster text generation」MarkTechPost「Google AI Releases DiffusionGemma, a 26B MoE Open Model Using Text Diffusion」窓の杜「Google、ローカルAIが4倍速くなるテキスト生成モデル『DiffusionGemma』を実験的に発表」

Read more

push前に一度、AIに通す──Cursorが90秒レビューで前倒しした「出す前の品質ゲート」

push前に一度、AIに通す──Cursorが90秒レビューで前倒しした「出す前の品質ゲート」

Cursorが6月10日、コードレビュー「Bugbot」を3倍高速・約22%安価に更新。1回約90秒なら、pushの前にAIへ一度通す運用が成立する。レビューを「PRの後」から「出す前のゲート」へ前倒しする動きと、その盲信リスクを読む。

By FF
サブエージェントが入れ子になる──Claude Code v2.1.172が広げる「5階層」の分業設計

サブエージェントが入れ子になる──Claude Code v2.1.172が広げる「5階層」の分業設計

Claude Code v2.1.172が公開。目玉はサブエージェントの入れ子化で、最大5階層まで分業を深められる。並列実行時のCPU改善や1Mコンテキストの不具合修正に加え、設定を読み違え得たセキュリティ修正も。分業を「設計する」局面へ。

By FF