Google ускорила нейросети Gemma 4 на смартфонах в три раза
Калькулятор калорий Рассчитай свое питание
Навигация по сайту

Google ускорила нейросети Gemma 4 на смартфонах в три раза

Корпорация Google представила специализированные вспомогательные модели под названием «черновики» (drafters), которые способны значительно ускорить работу ИИ-моделей семейства Gemma 4. Новое решение позволяет выполнять ресурсоемкие задачи непосредственно на мобильных устройствах, сохраняя высокую производительность при локальном запуске.

Механизм работы моделей-черновиков

Основная задача компактных моделей-помощников заключается в прогнозировании фрагментов ответов на запросы пользователя. Пока «черновик» предсказывает последовательность слов, основная нейросеть обрабатывает их крупными блоками. Это позволяет более эффективно использовать оперативную память и вычислительные ресурсы устройства.

Внедрение данной технологии решает проблему высокого потребления ресурсов, которая часто возникает при локальной работе ИИ. Основные преимущества метода:

  • Повышение скорости генерации текста до 300%.
  • Оптимизация использования видеопамяти (VRAM).
  • Сохранение конфиденциальности данных за счет обработки запросов на самом устройстве.

Технология спекулятивного декодирования

В основе ускорения лежит метод спекулятивного декодирования. Вспомогательная модель предугадывает следующие слова в предложении еще до того, как основная нейросеть Gemma завершит анализ текущего фрагмента. Основная модель параллельно проверяет предложенный вариант.

Если предсказание оказывается верным, система мгновенно переходит к следующему блоку данных. В случае обнаружения ошибки основной алгоритм автоматически корректирует неверное слово или сегмент текста. По данным разработчиков, такой подход позволяет избежать лишних циклов обращения к памяти.

Оптимизация под мобильное оборудование

В обзоре технологии подчеркивается, что скорость работы нейросетей часто ограничена не мощностью процессора, а пропускной способностью памяти. Группировка слов в блоки через систему многотокенового прогнозирования (MTP) позволяет обращаться к памяти реже, перенося основную нагрузку на вычислительные ядра.

Google также проводит оптимизацию моделей Gemma 4 под конкретное аппаратное обеспечение, включая чипы Apple Silicon и графические процессоры Nvidia A100. Новые инструменты уже доступны разработчикам на платформах HuggingFace, Kaggle, а также через сервис Ollama и библиотеку Google AI Edge Gallery для мобильных операционных систем Android и iOS.

Поделитесь с друзьями

Комментарии закрыты

Наверх