Google ускорила нейросети Gemma 4 на смартфонах в три раза
Корпорация Google представила специализированные вспомогательные модели под названием «черновики» (drafters), которые способны значительно ускорить работу ИИ-моделей семейства Gemma 4. Новое решение позволяет выполнять ресурсоемкие задачи непосредственно на мобильных устройствах, сохраняя высокую производительность при локальном запуске.
Механизм работы моделей-черновиков
Основная задача компактных моделей-помощников заключается в прогнозировании фрагментов ответов на запросы пользователя. Пока «черновик» предсказывает последовательность слов, основная нейросеть обрабатывает их крупными блоками. Это позволяет более эффективно использовать оперативную память и вычислительные ресурсы устройства.
Внедрение данной технологии решает проблему высокого потребления ресурсов, которая часто возникает при локальной работе ИИ. Основные преимущества метода:
- Повышение скорости генерации текста до 300%.
- Оптимизация использования видеопамяти (VRAM).
- Сохранение конфиденциальности данных за счет обработки запросов на самом устройстве.
Технология спекулятивного декодирования
В основе ускорения лежит метод спекулятивного декодирования. Вспомогательная модель предугадывает следующие слова в предложении еще до того, как основная нейросеть Gemma завершит анализ текущего фрагмента. Основная модель параллельно проверяет предложенный вариант.
Если предсказание оказывается верным, система мгновенно переходит к следующему блоку данных. В случае обнаружения ошибки основной алгоритм автоматически корректирует неверное слово или сегмент текста. По данным разработчиков, такой подход позволяет избежать лишних циклов обращения к памяти.
Оптимизация под мобильное оборудование
В обзоре технологии подчеркивается, что скорость работы нейросетей часто ограничена не мощностью процессора, а пропускной способностью памяти. Группировка слов в блоки через систему многотокенового прогнозирования (MTP) позволяет обращаться к памяти реже, перенося основную нагрузку на вычислительные ядра.
Google также проводит оптимизацию моделей Gemma 4 под конкретное аппаратное обеспечение, включая чипы Apple Silicon и графические процессоры Nvidia A100. Новые инструменты уже доступны разработчикам на платформах HuggingFace, Kaggle, а также через сервис Ollama и библиотеку Google AI Edge Gallery для мобильных операционных систем Android и iOS.








Комментарии закрыты