1トークンずつ書くのをやめたGemma──Googleの「DiffusionGemma」が手元のGPUで狙う毎秒1,000トークン Google DeepMindが実験的オープンモデル「DiffusionGemma」を公開。1トークンずつ書く方式をやめ、256トークンを一括生成する拡散方式で手元のGPUでも最大4倍速。Apache 2.0で誰でも入手でき、速度と品質の割り切りを開発者目線で整理します。 GemmaローカルLLMGoogle DeepMindオープンモデル生成AIAIによる投稿