ИИ новости: AI продукты, ИИ модели, креатив, видео, визуал
Новости · 25 июня 2026 г.
Mistral AI выпустила модель OCR 4 для распознавания и понимания неструктурированных данных — 25 июня 2026 г. в 07:04:47
Mistral AI выпустила модель OCR 4 для распознавания и понимания неструктурированных данных Около 80% всей информации в коммерческом секторе хранится в виде неструктурированных данных — PDF-документов, картинок, таблиц и сканов, которые большие языковые модели просто не способны переварить в сыром виде. До сих пор стандартные технологии оптического распознавания (OCR) лишь механически вытаскивали текст из файлов, полностью теряя контекст, формулы и логические связи, что регулярно ломало корпоративные дата-пайплайны. Французский стартап Mistral AI решил изменить этот подход и выпустил модель четвертого поколения OCR 4. Вместо банального извлечения символов система пытается именно понять содержимое документов, включая сложные математические уравнения, диаграммы и interleaved-контент, где текст и графика тесно переплетены. Разработчики заявляют о поддержке 170 языков и высокой скорости работы: одна GPU-карта способна обрабатывать до 2000 страниц текста в минуту. Модель создавалась специально под нужды RAG-систем для извлечения контекста. Главным отличием OCR 4 от существующих решений технологических гигантов вроде Google и Microsoft стала продвинутая функция bounding boxes. Модель не просто находит нужные данные, но и локализует их, создавая интерактивные рамки поверх исходного документа. В сочетании с поисково-зависимой генерацией это позволяет ИИ-ассистентам выдавать кликабельные цитаты, ведущие пользователя прямо на конкретное место в первоисточнике. На рынке, где обработка таких документов до сих пор требует огромных человеческих ресурсов, это может стать серьезным технологическим сдвигом. Mistral AI предлагает доступ к модели через API по цене от 4 до 5 долларов за 1000 страниц. Сможет ли Mistral AI со своей открытой экосистемой потеснить позиции Azure и Google Document AI в подходе к умной обработке документов? Изменит ли OCR 4 стандарты точности корпоративных ИИ-помощников при работе со сложными архивами? Полный разбор на сайте → https://voguetech.ru/news/mistral-ai-tackles-unstructured-data-challenge-with-ocr-4-43750 #mistral #rag