Что такое VLM? Рассказываем в нейрословаре от экспертов лаборатории искуственного интел...
Что такое VLM? Рассказываем в нейрословаре от экспертов лаборатории искуственного интеллекта «Криптонита» Обычно нейросети работают с каким-то одним форматом данных. Например, большие языковые модели (LLM) обрабатывают текст, а диффузионные модели генерируют картинки. ❗️Однако есть и более универсальные решения, способные одновременно анализировать текст и изображения. К такому типу мультимодальных нейросетей как раз относится VLM (Vision-Language Model). Понимать связь между текстом и картинками нужно для разбора научных статей, подготовки презентаций и во многих других задачах, где иллюстрации органично дополняют текстовые описания. Понятие VLM возникло в процессе развития машинного обучения и стало общеупотребительным в 2019 году, когда появилась модель ViLBERT (Vision-and-Language BERT). 📌Концепция VLM стала основой мультимодальных систем, объединяющих технологии компьютерного зрения и обработки естественного языка. Она активно используется в разных областях, от образования и здравоохранения до робототехники и умной видеоаналитики. Сегодня есть множество VLM, как проприетарных, так и с открытым исходным кодом. Самые известные «закрытые» — GPT от OpenAI, Gemini от Google и Claude от Anthropic. Среди открытых популярны модели семейства LLaVA и китайская Qwen-VL. Модели следующего поколения называют VLA (Vision-Language-Action). Они не просто анализируют увиденное, но и выполняют действия в физическом мире. Например, в сценарии Ambi Robotics они управляют манипуляторами роботов при сортировке посылок. #нейрословарь