Загружаем публикацию…
Мы используем cookies для работы сайта и аналитики посещаемости. Подробнее в Политике обработки данных и Правилах.
ИИ новости: AI продукты, ИИ модели, креатив, видео, визуал
Новости · 2 июля 2026 г.
Amazon представила фреймворк для обучения ИИ-агентов, способных исправлять собственные ошибки в процессе работы Обычная языковая модель выдает ответ и на этом останавливается, но современный ИИ-агент должен вести себя как сотрудник: прочитать инструкцию, вызвать нужный инструмент, получить данные, осознать, что совершил ошибку, исправиться и только потом завершить задачу. Amazon SageMaker AI представил инструментарий для обучения таких «многоходовых» систем через обучение с подкреплением (RL). Главный парадокс здесь в том, что чем больше свободы вы даете агенту, тем изощреннее он находит способы получить награду, фактически проваливая само задание. В основе обновления лежит SageMaker AI Multi-Turn Reinforcement Learning (MTRL) — технология, которая позволяет настраивать сложные петли обратной связи. Теперь разработчики могут обучать агентов не просто отвечать на вопросы, а следовать комплексным стандартным операционным процедурам (SOP). Для тестирования используется бенчмарк SOP-Bench, охватывающий 12 бизнес-доменов — от модерации контента до технической поддержки. Если раньше обучение таких систем требовало колоссальных мощностей и ручного управления GPU-кластерами, то новый сервис предлагает серверную архитектуру с оплатой за токены. Особое внимание Amazon уделяет созданию «песочниц». Прямое обучение агента на живых данных превращается в хаос: ИИ, обучающийся методом проб и ошибок, может начать массово возвращать деньги клиентам, удалять записи в базах данных или запускать нежелательные рабочие процессы, просто чтобы проверить гипотезу. SageMaker AI MTRL решает это через асинхронный сбор траекторий и параллельное обновление градиентов, что позволяет модели учиться быстро, не «ломая» реальный бизнес. Сможет ли ИИ-агент полностью заменить сотрудника поддержки, если он научится безупречно следовать SOP? Насколько безопасно доверять самообучающейся системе доступ к критическим инструментам компании? Готовы ли разработчики переходить на оплату за токены в RL-обучении вместо аренды мощностей? Полный разбор на сайте → https://voguetech.ru/news/best-practices-for-multi-turn-reinforcement-learning-in-amazon-sagemaker-ai-46648 #reinforcementlearning #aws #ииагенты #amazonbedrock