Исследование Microsoft: нейросети портят документы при длительной работе
Калькулятор калорий Рассчитай свое питание
Навигация по сайту

Исследование Microsoft: нейросети портят документы при длительной работе

С ростом возможностей больших языковых моделей все чаще возникает соблазн делегировать им выполнение рабочих задач, связанных с обработкой документации. Однако новая работа исследователей Microsoft ставит под сомнение надежность такого подхода. Специалисты выяснили, что нейросети склонны «незаметно» искажать содержимое документов при выполнении многоэтапных операций.

Риски делегирования задач ИИ

В рамках исследования была разработана методика тестирования под названием DELEGATE-52, имитирующая автономные рабочие процессы в 52 профессиональных областях — от бухгалтерского учета до написания музыки. В ходе эксперимента проверялась способность моделей сохранять точность данных после серии последовательных правок.

  • Даже передовые модели при выполнении цепочки из 20 действий искажают в среднем 25% содержимого документа.
  • Для менее совершенных систем уровень деградации данных достигает 50%.
  • Модели показывают высокую эффективность только в написании кода на языке Python, демонстрируя точность до 98%, однако серьезно ошибаются при работе с естественным языком и специализированными текстами.

Механика ошибок нейросетей

Исследователи отмечают, что снижение качества работы происходит не из-за множества мелких опечаток, а из-за редких, но критических сбоев. В таких случаях модель может внезапно удалить или исказить до 10% объема документа за один шаг. Примечательно, что наиболее совершенные модели не избегают ошибок, а лишь откладывают эти катастрофические сбои на более поздние этапы работы.

Авторы анализа подчеркивают разницу в характере ошибок:

  • Слабые модели при сбоях преимущественно удаляют фрагменты текста.
  • Передовые модели искажают существующую информацию, создавая «галлюцинации», которые значительно сложнее обнаружить при проверке человеком.

Влияние инструментов и контекста

Эксперимент показал, что предоставление нейросетям стандартных агентских инструментов для работы с файлами и кодом не улучшает, а ухудшает результат, увеличивая уровень деградации данных в среднем на 6%. Это связано с тем, что универсальные алгоритмы менее эффективны, чем узкоспециализированные функции. Кроме того, наличие в контексте «отвлекающих» документов (объемом от 16 000 до 24 000 слов) негативно сказывается на фокусе ИИ, постепенно накапливая ошибки.

Рекомендации для бизнеса

Результаты исследования служат предупреждением для компаний, внедряющих технологии искусственного интеллекта. Основные выводы для бизнеса заключаются в следующем:

  • Необходимо проводить промежуточную проверку работы ИИ, а не полагаться исключительно на финальный результат.
  • Лучше разбивать сложные задачи на короткие и прозрачные этапы, а не доверять выполнение длинных цепочек действий одному агенту.
  • Для обеспечения надежности следует внедрять специализированные инструменты, предназначенные для работы с конкретными типами данных, а не использовать универсальные надстройки.

Несмотря на высокую скорость развития технологий, где лучшие образцы моделей за полтора года увеличили свои показатели в разы, эксперты отмечают, что текущие системы пока не готовы к полной автономности в корпоративной среде. Организациям рекомендуется создавать собственные тестовые сценарии на базе методологии DELEGATE-52, чтобы проверять надежность ИИ-решений на своих данных.

* — деятельность компании запрещена на территории РФ

Поделитесь с друзьями

Комментарии закрыты

Наверх