Сбер обучил GPT-3 на 600 гигабайтах русских текстов

Разделы: Электроника и оптика, Новые разработки

4897

Эссе, сгенерированное GPT-3, обученной на русских текстах.

Источник изображения: nplus1.ru

Разработчики из Сбера представили русскоязычную версию алгоритма для генерирования текста GPT-3, представленную в мае этого года. Чтобы обучить систему, команда собрала корпус из 600 гигабайтов русскоязычных текстов, включая корпус русской литературы, новостные сайты и публичные разделы Pikabu. В самой большой обученной модели, GPT-3 Large, 760 параметров, а саму модель выложили в открытый доступ. Подробнее об этом можно прочитать в блоге руководителя проекта Сергея Маркова на «Хабре».

В мае этого года разработчики из Open AI представили GPT-3 — новую версию своего алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии разработчики увеличили количество используемых параметров, данных для обучения и способностей: GPT-3 умеет не только генерировать отдельные тексты, но также и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и составлять стихи.

Кроме того, GPT-3 умеет переводить: разработчики не стали ограничивать язык текстов при сборе данных, так что в выборку попали семь процентов не англоязычных текстов. При этом текстов на других языках все же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков: на них ее нужно обучать отдельно.

Сделать это для русского языка решили разработчики из Сбера. Для обучения GPT-3 на русском языке они совместно с разработчиками из AGI NLP собрали корпус текстов размером 600 гигабайтов (для сравнения, при обучении оригинальной GPT-3 разработчики Open AI использовали 570 гигабайтов текстов). Для обучения использовали корпус русской литературы, русскую и английскую «Википедию», новостные сайты, публичные разделы сайта Pikabu и корпус Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель Сбера не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10 процентов.

Разработчики Сбера для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающиеся количеством параметров (от 125 миллионов до 175 миллиардов в самой последней версии), и в версии Large параметров (устанавливаемых в самом начале обучения) — 760 миллионов (также разработчики обучили и GPT-3 Middle — в ней 356 миллионов параметров).

Для обучения использовали суперкомпьютер «Кристофари», представленный Сбером в прошлом году. Исходный код модели разработчики выложили на GitHub, а его работу можно посмотреть, например, с помощью бота GenerativeBeast_2.0 в телеграме или также — в репозитории. В целом, русскоязычная модель, судя по всему, может все то же самое, что умеет и оригинальная — даже писать небольшие куски «весьма осмысленного» программного кода.

Несмотря на то, что алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP, другие проекты тоже активно развиваются: например, пару дней назад Facebook рассказала о системе машинного перевода, которая обходится без дополнительного шага с переводом текста на английский.

Елизавета Ивтушок

Права на данный материал принадлежат N+1
Материал размещён правообладателем в открытом доступе

В новости упоминаются

Страны

Великобритания

Проекты

ИТ

13 комментариев

№1

Виктор Алексеевич

23.10.2020 11:08

Цитата, q

алгоритма для генерирования текста

Кто может объяснить цель разработки этого алгоритма? Кроме как "запудрить мозги неприятелю в интернете" - не вижу зачем эта фигня может пригодиться.
Хотя... Запудрить мозги клиентам Сберу, видимо, тоже надо.

Цитата, q

алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP,

О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.
НАШЁЛ ПРИМЕНЕНИЕ! Надо своему мальку дать ссылку на эту фигню, чтобы не мучился сочинения придумывать!
Хотя... Пробежал это генерированное эссе про Светлану. Искусственный интеллект написал, что "реальный факт: Светлана стала ведьмой". Нет уж, не буду давать мальку ссылку, а то училка его засмеёт за такие "эссе".

Сообщить

№2

Андрей Л.

23.10.2020 20:57

Цитата, Виктор Алексеевич сообщ. №1

Кто может объяснить цель разработки этого алгоритма?

1. Первая линия технической поддержки
2. Первая линия продвижения новых услуг
3. Рекомендательные системы по запросу
4. Все уровни образования и повышения квалификации

Цитата, Виктор Алексеевич сообщ. №1

О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.

NLP - это раздел ИИ и ML по обработке естественного языка (Natural Language Processing - NLP). Лукавство здесь в том, что NLP не самое популярное направление в ИИ, НО - имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса и Абби.

Сообщить

№3

Виктор Алексеевич

26.10.2020 17:54

Цитата, q

1. Первая линия технической поддержки

Меня уже злят эти "электронные помощники" в техподдержках, которые ни черта понять, а тем более ответить не могут и только задерживают соединение с оператором. Стараюсь выбирать фирмы, у которых нет этих электронных приблуд.

Цитата, q

2. Первая линия продвижения новых услуг

Вот это - может быть: набрать номер, спросить и понять готовы ли слушать рекламу, оттарабанить заложенный текст и потом соединить с оператором - это возможно. Досадно только, что эту говорилку нельзя подколоть, как живую девушку-рекламного агента...

Цитата, Андрей Л. сообщ. №2

3. Рекомендательные системы по запросу

Расшифруйте.

Цитата, Андрей Л. сообщ. №2

4. Все уровни образования и повышения квалификации

Категорически не годятся. Чтобы научить чему-то надо не только знать материал, который преподаёшь, надо ещё уметь понимать, почему этот материале обучаемый не понял. Вот это "почему" - вообще из области искусства.

Цитата, Андрей Л. сообщ. №2

имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса

Эти алгоритмы применяются в Яндекс-переводчике?

Сообщить

№4

26.10.2020 18:11

Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?

Сообщить

№5

Андрей Л.

26.10.2020 21:39

Цитата, Os сообщ. №4

Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?

EXE-шник - это смешно :))))))))))))))

Модели натренированные на GPT-3 в свободном доступе под разные языки.

Кроме того, и Сбербанк выложил натренированные на GPT-3 модели русского языка

Есть ещё частный доступ к API GPT-3 от OpenAI

Сообщить

№6

Андрей Л.

26.10.2020 21:53