Главная » НОВОСТИ » Исследование Microsoft: нейросети портят документы при длительной работе

Исследование Microsoft: нейросети портят документы при длительной работе

14.05.2026 45

(No Ratings Yet)

С ростом возможностей больших языковых моделей все чаще возникает соблазн делегировать им выполнение рабочих задач, связанных с обработкой документации. Однако новая работа исследователей Microsoft ставит под сомнение надежность такого подхода. Специалисты выяснили, что нейросети склонны «незаметно» искажать содержимое документов при выполнении многоэтапных операций.

Содержание страницы

Риски делегирования задач ИИ
Механика ошибок нейросетей
Влияние инструментов и контекста
Рекомендации для бизнеса

Риски делегирования задач ИИ

В рамках исследования была разработана методика тестирования под названием DELEGATE-52, имитирующая автономные рабочие процессы в 52 профессиональных областях — от бухгалтерского учета до написания музыки. В ходе эксперимента проверялась способность моделей сохранять точность данных после серии последовательных правок.

Даже передовые модели при выполнении цепочки из 20 действий искажают в среднем 25% содержимого документа.
Для менее совершенных систем уровень деградации данных достигает 50%.
Модели показывают высокую эффективность только в написании кода на языке Python, демонстрируя точность до 98%, однако серьезно ошибаются при работе с естественным языком и специализированными текстами.

Механика ошибок нейросетей

Исследователи отмечают, что снижение качества работы происходит не из-за множества мелких опечаток, а из-за редких, но критических сбоев. В таких случаях модель может внезапно удалить или исказить до 10% объема документа за один шаг. Примечательно, что наиболее совершенные модели не избегают ошибок, а лишь откладывают эти катастрофические сбои на более поздние этапы работы.

Авторы анализа подчеркивают разницу в характере ошибок:

Слабые модели при сбоях преимущественно удаляют фрагменты текста.
Передовые модели искажают существующую информацию, создавая «галлюцинации», которые значительно сложнее обнаружить при проверке человеком.

Влияние инструментов и контекста

Эксперимент показал, что предоставление нейросетям стандартных агентских инструментов для работы с файлами и кодом не улучшает, а ухудшает результат, увеличивая уровень деградации данных в среднем на 6%. Это связано с тем, что универсальные алгоритмы менее эффективны, чем узкоспециализированные функции. Кроме того, наличие в контексте «отвлекающих» документов (объемом от 16 000 до 24 000 слов) негативно сказывается на фокусе ИИ, постепенно накапливая ошибки.