Google выкатил текстовую модель, которая "думает" как визуальная (диффузионная)
Google выкатил текстовую модель, которая "думает" как визуальная (диффузионная) Называется Diffusion Gemma. Вот в чём её отличие: Все обычные LLM (GPT, Claude, сама Gemma и т.д.) - авторегрессионные. У них каждый следующий токен зависит от предыдущего. Генерация идёт последовательно, распараллелить нельзя. Из-за этого GPU ждёт, пока посчитается слово, и бОльшую часть времени просто гоняет веса туда-сюда из памяти. Это узкое место, которое замедляет весь процесс. А Diffusion Gemma "думает" по-другому. Вместо того, чтобы строить цепочку токенов в слова, она сразу вываливает бессмысленную бурмалду из 256 случайных токенов, и после этого улучшает её итеративно: заменяет неподходящие на нужные, пока не получится связный текст. Примерно как если бы вы писали черновик сразу целиком, а потом правили - вместо того, чтобы думать над каждым словом по очереди (я примерно так все тг-посты пишу, кстати 👍). За счёт этого радикально повышается производительность - GPU перестаёт простаивать в ожидании каждого следующего токена и всегда работает на полную. Отсюда получаем х4 к скорости при локальном запуске. Раньше такие приколы делали только мелкие ребята. Diffusion Gemma - первая открытая модель такого типа с нормальными весами от большого игрока. Веса при этом открытые - лежат на Hugging Face, есть демка с генерацией HTML-кода. По качеству модель пока уступает обычной Gemma 4 почти на всех бенчмарках, кроме скорости. Так что, пока это не готовая замена, а скорее эксперимент: "что будет, если генерить текст как картинки?". Но эксперимент любопытный - если в будущем всё упрётся в эффективность, а качество при этом нарастят, то может стать интересной заменой для некоторых сценариев (особенно для локалки). https://huggingface.co/google/diffusiongemma-26B-A4B-it