Войти

Нейросеть от DeepMind научилась решать 604 задачи разных типов

1428
0
0
Нейросеть от DeepMind научилась решать 604 задачи разных типов
Нейросеть от DeepMind научилась решать 604 задачи разных типов.
Источник изображения: DeepMind

Исследователи из DeepMind разработали мультимодальную нейросеть, способную выполнять задачи разного типа. Например, она умеет управлять роботом, играть в игры для Atari, писать текст и описывать фотографии. Статья об алгоритме опубликована на arXiv.org, также авторы рассказали о нем на сайте DeepMind.

В 2017 году исследователи из Google Brain представили нейросетевую архитектуру Transformer, отличительной особенностью которого стало широкое использование механизма внимания. Это позволяет нейросети гораздо лучше понимать контекст слов и предложений, что в свою очередь позволило добиться большого прогресса в целом в области обработки естественного языка. Один из самых известных примеров этого прогресса: модель GPT-3 от OpenAI. Оказалось, что если обучить модель на огромном массиве текстов, она выучит хорошее представления языка и того, как должны выглядеть тексты, после чего ее можно быстро и на очень небольшом объеме данных дообучить до конкретной задачи. Причем эта задача не обязательно должна быть текстовой: выяснилось, что GPT-3 умеет выполнять базовые арифметические операции.

Параллельно с развитием универсальных языковых моделей исследователи разрабатывают мультимодальные модели, работающие одновременно с разными данными. Исследователи из DeepMind под руководством Нандо де Фрейта (Nando de Freita) разработали новую мультимодальную нейросеть Gato, которая позволяет использовать архитектуру Transformer для решения самых разных задач.

Поскольку Transformer разрабатывали для языковых задач, эта архитектура работает с текстовыми токенами. Соответственно, для работы с разными данными Gato превращает их в токены. Разработчики использовали четыре схемы токенизации. Текст токенизируется стандартным способом, при котором в словах выделяются подслова и кодируются числом от 0 до 32 тысяч. Изображения разбиваются на квадраты (16 на 16 квадратов), а пиксели в них кодируются от −1 до 1, а затем эти квадраты подаются в модель построчно. Дискретные значения превращаются в числа от 0 до 1024, а непрерывные дискретизируются и превращаются в число или набор чисел от 32000 до 33024. При необходимости токены также могут разбиваться разделительными токенами.


Принцип работы модели с разными данными

Источник изображения: Scott Reed et al. / arXiv.org, 2022


После токенизации входящих данных каждый токен превращается в эмбеддинг (по сути сжатое векторное представление тех же данных) двумя способами: для изображений квадраты пропускаются через сверточную нейросеть типа ResNet, а для остальных данных они подбираются через выученную таблицу поиска (поскольку любой токен представляет собой целое число в ограниченном диапазоне).


Датасеты, использованные для обучения

Источник изображения: Scott Reed et al. / arXiv.org, 2022


Исследователи использовали 24 датасета с данными разных типов и с их помощью обучили модель выполнять 604 задачи. При этом модель не достигла рекордных результатах на этих задачах. В некоторых, например, в 23 играх для Atari, она справляется лучше людей, но это не новый результат для алгоритмов машинного обучения — в 2020 году DeepMind разработала алгоритм, обыгрывающий людей сразу в 57 играх. В других же она явно не дотягивает до уровня человека, например, в аннотации изображений:


Примеры описания изображений нейросетью

Источник изображения: Scott Reed et al. / arXiv.org, 2022


Фактически DeepMind продемонстрировала подход, обратный принятому: вместо создания узкоспециализированной модели, решающей конкретную задачу или набор смежных задач лучше других, разработчики создали универсальную модель, которая решает самые задачи, но не очень качественно.

Помимо мультимодальных нейросетей исследователи также работают над мультимодальными методами их обучения, то есть едином методе, подходящем для обучения специализированных моделей для работы с текстом, изображениями или звуком. Недавно мы рассказывали о таком методе, разработанном разработчиками из Meta.

Григорий Копиев

Права на данный материал принадлежат
Материал размещён правообладателем в открытом доступе
  • В новости упоминаются
Проекты
Похожие новости
27.10.2006
Минэкономразвития внесло в Правительство РФ план мероприятий по развитию промышленности и технологий на 2006-2007 годы.
23.10.2006
Основные положения доклада об основных направлениях деятельности Министерства промышленности и энергетики Российской Федерации на 2007-2009 годы
11.10.2006
Казахстан совместно с РФ разрабатывает программу развития своей космической деятельности до 2020 года - глава Минобразования
06.09.2006
От петарды до орбитальной станции
01.09.2006
Немецкая "оборонка" нацелилась на индийский рынок
25.08.2006
Япония планирует создать новый сверхзвуковой пассажирский самолет
23.08.2006
У России есть все технологические возможности для высадки на Луну к 2020 году - РКК "Энергия"
Хотите оставить комментарий? Зарегистрируйтесь и/или Войдите и общайтесь!
ПОДПИСКА НА НОВОСТИ
Ежедневная рассылка новостей ВПК на электронный почтовый ящик
  • Разделы новостей
  • Обсуждаемое
    Обновить
  • 10.05 23:36
  • 1244
Без кнута и пряника. Россия лишила Америку привычных рычагов влияния
  • 10.05 16:23
  • 1
Борьба за доминирование: Российский и украинский подходы к Черноморскому региону
  • 10.05 14:31
  • 14
Американские «Гадюки» получат ракету большой дальности
  • 10.05 13:08
  • 1
Комбриг спецназа призвал создать БПЛА-носитель для FPV-дронов и внедрить в ВС России
  • 10.05 03:44
  • 4
Визит канцлера в Прибалтику. Все в этот день заставляет воскликнуть: переломный момент! (Der Spiegel, Германия)
  • 10.05 01:20
  • 0
В добавление к мифам - миф новейший, и ОЧЕНЬ надоедливый.
  • 09.05 23:17
  • 1
О некоторых заблуждениях касательно задач и возможностей танков.
  • 09.05 16:32
  • 2720
Как насчёт юмористического раздела?
  • 09.05 12:44
  • 14
Названа цена за вступление Молдавии в НАТО. Страна запылает, как Украина
  • 09.05 10:26
  • 10
В США показали испытания беспилотной подлодки на видео
  • 09.05 09:14
  • 1
Не верьте военной машине Вашингтона: Путин не собирается нападать на страны НАТО (Newsweek, США)
  • 09.05 09:01
  • 1
Китайская станция Chang'e-6 успешно вышла на окололунную орбиту
  • 09.05 08:55
  • 1
"Дни неприступных крепостей прошли". Украинский фронт вот-вот посыплется (Advance, Хорватия)
  • 09.05 02:07
  • 5
NASA успешно передало данные по лазерному лучу на 226 миллионов километров
  • 09.05 02:07
  • 1258
Корпорация "Иркут" до конца 2018 года поставит ВКС РФ более 30 истребителей Су-30СМ