Эволюция ИИ-помощников: как обновленный Claude справляется с реальными задачами
Калькулятор калорий Рассчитай свое питание
Навигация по сайту

Эволюция ИИ-помощников: как обновленный Claude справляется с реальными задачами

Развитие технологий искусственного интеллекта переходит от простых ответов на вопросы к выполнению комплексных многоэтапных задач. В ходе тестирования обновленной языковой модели Claude Sonnet от компании Anthropic эксперты оценили её способность работать в режиме автономного агента. Результаты показывают, что индустрия ИИ вступает в новую фазу соперничества, где главным критерием становится доведение работы до готового результата.

От простых ответов к готовым решениям

Разработчики из Anthropic позиционируют обновленную модель Sonnet как инструмент, созданный для сложных задач, включая написание кода, веб-серфинг и автономное планирование. Чтобы проверить эти заявления на практике, были проведены тесты в сценариях, требующих от нейросети роли полноценного цифрового ассистента, а не простого собеседника.

Тест первый: планирование поездки

Для проверки агентных функций модели была поставлена задача детально спланировать семейную поездку на выходные в британский город Бат для двух взрослых и двух подростков. Запрос требовал составить маршрут, рассчитать примерный бюджет, определить необходимые бронирования и составить список действий для пользователя.

Claude справился с задачей за несколько секунд. Нейросеть предложила варианты проезда, расписание, места для обеда и посещение достопримечательностей, включая Римские купани. Отличительной чертой интерфейса стала интерактивная карта с нанесенными локациями. Кроме того, при уточнении даты поездки система автоматически вывела наглядный прогноз погоды.

Аналогичный запрос был отправлен в ChatGPT. Хотя текстовый результат оказался сопоставимым по качеству (обе модели учли даже скидку на билеты для студентов), ChatGPT уступил в визуализации: он предоставил стандартный отчет без карт и графических элементов. Кроме того, Claude изначально предположил поездку на автомобиле, тогда как его конкурент выбрал поезд по умолчанию.

Тест второй: создание финансового инструмента

Вторым испытанием стало создание таблицы для ведения домашнего бюджета. Обе модели успешно справились с генерацией файла формата Excel, однако продемонстрировали разный подход к визуализации данных.

  • ChatGPT создал детализированную таблицу со столбчатой диаграммой расходов.
  • Claude предложил более лаконичное решение с круговой диаграммой и добавил удобную функцию прямой загрузки файла в облачное хранилище Google Drive для открытия через веб-таблицы.

При внесении правок (изменение типа графиков, добавление новых категорий расходов) оба ИИ-ассистента без проблем скорректировали итоговые файлы, подтвердив способность вести последовательный диалог с пользователем и адаптироваться к новым вводным.

Новый этап технологического соперничества

Проведенные тесты показывают, что разработчики ИИ смещают фокус с создания умных чат-ботов на разработку полноценных цифровых помощников. На данный момент ни одна из моделей не способна полностью заменить человека — пользователю все еще необходимо самостоятельно совершать бронирования и принимать ключевые решения. Тем не менее, Claude демонстрирует более высокую готовность к роли автономного агента за счет удобной организации рабочего процесса и наглядного представления результатов.

Поделитесь с друзьями

Комментарии закрыты

Наверх