🏇 Google переизобретает генерацию текста. DiffusionGemma — скорость как у скаковой лошади
🏇 Google переизобретает генерацию текста. DiffusionGemma — скорость как у скаковой лошади Сундар Пичаи лично вышел с анонсом. И это не шутка. Вместо того чтобы генерировать текст слово за словом (как все), DiffusionGemma делает это блоками — как диффузионные модели для картинок. Результат: 1000+ токенов в секунду на одной H100. В 4 раза быстрее обычных LLM . 🤔 Как это работает: — Берёт «холст» из 256 случайных токенов — Постепенно очищает от шума (как Stable Diffusion) — Все токены общаются друг с другом на каждом шаге — Исправляет ошибки на лету ⚙️ Технические детали: 26B параметров, но при работе активируется только 3.8B (MoE). В квантизованном виде влазит в 18 ГБ VRAM. Запускается на RTX 4090/5090 . 📊 Бенчмарки: — HumanEval (код): 89.6% — почти как Gemini 2.0 Flash-Lite — AIME 2025 (математика): 23.3% — обходит конкурентов — GPQA Diamond (научные рассуждения): 40.4% — пока отстаёт Качество не всегда на уровне флагманов. Google честно говорит: для продакшена берите обычную Gemma 4, а DiffusionGemma — для экспериментов и задач, где скорость важнее идеального текста. 🎯 Где пригодится: — Локальные чат-боты и ассистенты — Интерактивное редактирование и код — Генерация таблиц, графиков, SVG — Там, где вы не хотите платить за облачные API 🆓 Доступность: Полностью open-source под Apache 2.0. Веса на Hugging Face. Поддержка vLLM, MLX, Transformers, NeMo. Скоро llama.cpp . ❓ Вопрос вам: Если бы у вас была видеокарта с 18+ ГБ VRAM — поставили бы эту модель локально или остались на облачных сервисах? 🔥 Лайк — если хотите поставить себе на ПК эту модель.