banner
Центр новостей
Вы не найдете такого уровня качества по лучшей цене.

Google Keynote Charts ML драйверы на Hot Chips 23

Sep 21, 2023

Джон Рассел

31 августа 2023 г.

Ученые Google Джефф Дин и Амин Вахдат представили увлекательную экскурсию по основным тенденциям в разработке аппаратного и программного обеспечения машинного обучения в своем совместном вступительном докладе Hot Chips 23 на этой неделе. Помимо других тем, пара затронула проблему превышения плотности над плотностью, усилия по адаптивным коммуникациям, разработку лучших показателей энергопотребления и производительности системы, а также ускоренную разработку чипов на основе искусственного интеллекта.

Дин и Вахдат не оставили камня на камне, хотя никаких тщательно охраняемых новостей Google не было раскрыто. Некоторые из последних, скорее всего, появятся на мероприятии Google Cloud Next 23, которое начинается сегодня в Сан-Франциско. Тем не менее, общие мазки Дина и Вахдата подчеркнули необходимость ускорения прогресса, поскольку спрос на вычисления ML обусловлен многими факторами, включая, конечно, резкий рост размера (количества параметров) моделей, опережающих возможности инфраструктуры.

«Очевидно, что в последние годы машинное обучение изменило наши ожидания относительно того, что, по нашему мнению, возможно с помощью компьютеров», — сказал Дин. «Компьютеры теперь могут понимать изображения, понимать речь, понимать язык гораздо лучше, чем когда-либо раньше, и это открывает захватывающий набор новых возможностей. Другое наблюдение заключается в том, что увеличение масштаба, использование большего количества вычислений, большего количества данных и создание более крупных моделей дает лучшие результаты. И виды вычислений, которые мы хотим выполнять, и оборудование, на котором мы хотим их выполнять, кардинально меняются.

«Я думаю, что это важный урок для разработчиков компьютерного оборудования: нам нужно как бы адаптироваться к улучшающейся среде исследований в области машинного обучения. В оставшейся части выступления я хочу поговорить о некоторых важных тенденциях и модели машинного обучения, некоторых последствиях для компьютерных архитекторов, а также о том, как нам разрабатывать оборудование ML и быстро его развертывать, чтобы идти в ногу с быстро развивающейся областью».

Иногда лучше сначала начать с выводов.

Дин, главный научный сотрудник Google, представил первую половину доклада, углубившись (в основном) в тенденции дизайна аппаратного обеспечения. Вахдат, научный сотрудник Google и технический руководитель в области сетевых технологий, рассказал об усилиях Google по ограничению выбросов углекислого газа и потратил немало времени на обсуждение показателя Google Goodput. Вахдат отметил: «Google публично взял на себя обязательство к 2030 году работать круглосуточно и без выбросов углекислого газа. Это действительно амбициозная цель».

Это был амбициозный разговор. Здесь представлены несколько их слайдов и замечания Дина о тенденциях моделей машинного обучения, включая разреженность, адаптивные вычисления и динамически изменяющиеся нейронные сети. HPCwire будет продолжать освещать комментарии Вахдата.

«Плотные модели, которые, вероятно, являются нейронными сетями, с которыми вы наиболее знакомы, — это те, в которых вся модель активируется для каждого входного примера или для каждого сгенерированного токена, и это находится в центре внимания подавляющего большинства сообщества машинного обучения. . Хотя они великолепны и смогли добиться множества замечательных результатов, разреженные вычисления станут важной тенденцией в будущем», — сказал Дин.

«Разреженные модели имеют разные пути, которые адаптивно вызываются по мере необходимости. Вместо этой гигантской модели эти разреженные модели могут быть гораздо более эффективными. Они как бы просто обращаются к нужным частям общей модели. А аспект правильных фигур – это тоже то, чему учатся в процессе тренировок. Затем различные части модели могут быть специализированы для разных типов входных данных. В конечном итоге вы получаете что-то, где вы касаетесь только нужного 1% или правильных 10% какой-то очень большой модели, и это дает вам как улучшенную отзывчивость, так и более высокую точность».

Как отметили Дин и его коллеги в статье 2022 года («Обзор разреженных экспертных моделей в глубоком обучении»), разреженность вряд ли нова.

В этой статье они пишут: «Разреженные экспертные модели — это концепция тридцатилетней давности, которая вновь становится популярной архитектурой в глубоком обучении. Этот класс архитектуры включает в себя смесь экспертов, коммутаторные трансформаторы, сети маршрутизации, базовые уровни и другие, и все они объединены идеей, что на каждый пример воздействует подмножество параметров. Таким образом, степень разреженности отделяет количество параметров от вычислений для каждого примера, что позволяет создавать чрезвычайно большие, но эффективные модели. Полученные модели продемонстрировали значительные улучшения в различных областях, таких как обработка естественного языка, компьютерное зрение и распознавание речи».