Google CALM: проблемы технологий больших языковых моделей

Рубрика: Теория и статистика | Время на чтение: 6 мин.

Поисковая система Google объявила о революционной технологии под названием CALM, которая ускоряет большие языковые модели (такие как GPT-3 и LaMDA) без снижения уровня производительности.

Google CALM: проблемы технологий больших языковых моделей

А спонсором блога в этом месяце выступает сервис Rookee. Когда требуется комплексное поисковое продвижение, реклама в Telegram или формирование репутации в интернете – на помощь приходят Rookee!

Оглавление

Большие данные – это, конечно, хорошо, но есть нюанс

Большие языковые модели (LLM) обучаются на больших объёмах данных. Обучение языковых моделей на больших объёмах данных приводит к тому, что модель приобретает новые способности, которые не всегда изначально запланированы.

Например, добавление в языковую модель дополнительных данных для обучения может неожиданно привести к тому, что она приобретет способность переводить с одного языка на другой, даже если заранее это не планировалось. Такие новые способности называются эмерджентными – возникающими неожиданно.

В научной работе «Эмерджентные способности больших языковых моделей» исследователи пишут следующее:

Хотя имеются десятки примеров эмерджентных способностей, в настоящее время существует мало убедительных объяснений того, почему такие способности возникают именно так, как они возникают.

То есть даже учёные пока не могут достаточно убедительно объяснить, по каким причинам эти способности появляются. Но уже хорошо известно, что увеличение объёма данных для обучения машины позволяет ей приобретать больше способностей.

Недостатком увеличения объёма данных для обучения является то, что для получения результата требуется больше вычислительной мощности, что делает ИИ более медленным в тот момент, когда он генерирует текст (этот момент называется «временем вывода»).

Таким образом, компромисс между тем, чтобы сделать ИИ умнее и увеличением количества данных, заключается в том, что ИИ становится медленнее в момент итоговой обработки информации.

В новой научной статье Google (Confident Adaptive Language Modeling) проблема описывается следующим образом:

Последние достижения в области больших языковых моделей (LLM) на основе трансформеров привели к значительному повышению производительности во многих задачах.
Эти достижения сопровождаются резким увеличением размера моделей, что потенциально может привести к медленному и дорогостоящему использованию во время вывода.

Confident Adaptive Language Modeling (CALM)

Исследователи из Google нашли интересное решение для ускорения работы языковых моделей при сохранении высокой производительности. Если провести аналогию, это похоже на разницу между ответом на лёгкий вопрос и решением более сложного вопроса.

На простой вопрос, например, какого цвета небо, можно ответить, не задумываясь. Трудный вопрос требует остановиться и хорошенько подумать, чтобы найти правильный ответ на него.

С вычислительной точки зрения, большие языковые модели не делают различия между трудной частью задачи по созданию текста и лёгкой. Они генерируют текст как для лёгкой, так и для трудной части, используя всю свою вычислительную мощь во время вывода.

Нынешнее решение Google называется Confident Adaptive Language Modeling (CALM). Эта новая система позволяет выделять меньше ресурсов на тривиальные части задачи по созданию текста и направлять всю мощность на более сложные части.

В документе по CALM (о котором шла речь выше) решение проблемы сформулировано следующим образом:

На практике, однако, ряд генераций, создаваемых LLM, состоит из различных уровней сложности.
В то время как некоторые расчёты действительно получают преимущество от полной мощности моделей, другие – более тривиальны и могут быть осуществлены с меньшими вычислениями.
…Хотя большие модели в целом работают лучше, для достижения одинаковой производительности, не для каждого ввода данных может потребоваться одинаковый объём вычислений (например, в зависимости от того, лёгкий или трудный это вопрос).

Что такое Google CALM и работает ли оно?

CALM (я бы перевёл, как «Уверенное адаптивное языковое моделирование») работает, динамически распределяя ресурсы, в зависимости от сложности отдельной части задачи, используя алгоритм для предсказания того, нужны ли для чего-то полные или частичные ресурсы.

В научной статье, о которой речь шла выше, сообщается, что исследователи протестировали новую систему для различных задач обработки естественного языка (резюмирование текста, машинный перевод и ответы на вопросы) и обнаружили, что смогли ускорить вывод примерно в три раза (на 300%).

Следующая иллюстрация показывает, насколько хорошо работает система CALM (я изменил цвета картинки, так что не пугайтесь, когда увидите оригинал):

Несколько участков, выделенных тёмно-зелёным цветом, указывают на то, что на данном отрезке задания машина использовала всю свою мощность. Фиолетовые участки – это отрезки, где машина использовала менее половины мощности.

Вот что пишут исследователи по поводу данной иллюстрации:

CALM ускоряет генерацию за счёт раннего выхода, когда это возможно, и выборочного использования полной мощности декодера только для нескольких лексем, продемонстрированного здесь на примере CNN/DM с мерой уверенности на основе softmax. Y (1) early и Y (2) early используют разные пороги уверенности для раннего выхода.
Ниже (sic) текста мы сообщаем об измеренной текстовой и рисковой согласованности каждого из двух выходов, а также о повышении эффективности.
Цвета показывают количество слоёв декодирования, используемых для каждой лексемы – фиолетовые оттенки обозначают менее половины всех слоёв.
Только несколько отобранных токенов используют полную мощность модели (выделены тёмно-зелёным цветом), в то время как для большинства токенов модель завершается после одного или нескольких слоёв декодирования (выделены фиолетовым цветом).

В заключение исследователи отметили, что внедрение CALM требует лишь минимальных модификаций для адаптации большой языковой модели, чтобы она стала быстрее.

Это исследование важно, поскольку оно открывает путь к созданию более сложных моделей ИИ, которые обучаются на значительно больших наборах данных, без снижения скорости, при сохранении высокого уровня производительности.

Тем не менее, возможно, что этот метод также может принести пользу большим языковым моделям, которые обучаются на меньшем количестве данных.

Например, модели InstructGPT, родственником которых является ChatGPT, обучаются примерно на 1.3 миллиардах параметров, но всё равно способны превзойти модели, которые обучаются на значительно большем количестве параметров.

Информация об этой научной работе была опубликована в блоге Google AI 16 декабря 2022 года. Сама исследовательская работа датирована 25 октября 2022 года. Интересно, войдёт ли эта технология в большие языковые модели ближайшего будущего?