Войти

Сбер обучил GPT-3 на 600 гигабайтах русских текстов

4187
13
0
Эссе, сгенерированное GPT-3, обученной на русских текстах
Эссе, сгенерированное GPT-3, обученной на русских текстах.
Источник изображения: nplus1.ru

Разработчики из Сбера представили русскоязычную версию алгоритма для генерирования текста GPT-3, представленную в мае этого года. Чтобы обучить систему, команда собрала корпус из 600 гигабайтов русскоязычных текстов, включая корпус русской литературы, новостные сайты и публичные разделы Pikabu. В самой большой обученной модели, GPT-3 Large, 760 параметров, а саму модель выложили в открытый доступ. Подробнее об этом можно прочитать в блоге руководителя проекта Сергея Маркова на «Хабре».

В мае этого года разработчики из Open AI представили GPT-3 — новую версию своего алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии разработчики увеличили количество используемых параметров, данных для обучения и способностей: GPT-3 умеет не только генерировать отдельные тексты, но также и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и составлять стихи.

Кроме того, GPT-3 умеет переводить: разработчики не стали ограничивать язык текстов при сборе данных, так что в выборку попали семь процентов не англоязычных текстов. При этом текстов на других языках все же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков: на них ее нужно обучать отдельно.

Сделать это для русского языка решили разработчики из Сбера. Для обучения GPT-3 на русском языке они совместно с разработчиками из AGI NLP собрали корпус текстов размером 600 гигабайтов (для сравнения, при обучении оригинальной GPT-3 разработчики Open AI использовали 570 гигабайтов текстов). Для обучения использовали корпус русской литературы, русскую и английскую «Википедию», новостные сайты, публичные разделы сайта Pikabu и корпус Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель Сбера не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10 процентов.

Разработчики Сбера для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающиеся количеством параметров (от 125 миллионов до 175 миллиардов в самой последней версии), и в версии Large параметров (устанавливаемых в самом начале обучения) — 760 миллионов (также разработчики обучили и GPT-3 Middle — в ней 356 миллионов параметров).

Для обучения использовали суперкомпьютер «Кристофари», представленный Сбером в прошлом году. Исходный код модели разработчики выложили на GitHub, а его работу можно посмотреть, например, с помощью бота GenerativeBeast_2.0 в телеграме или также — в репозитории. В целом, русскоязычная модель, судя по всему, может все то же самое, что умеет и оригинальная — даже писать небольшие куски «весьма осмысленного» программного кода.

Несмотря на то, что алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP, другие проекты тоже активно развиваются: например, пару дней назад Facebook рассказала о системе машинного перевода, которая обходится без дополнительного шага с переводом текста на английский.

Елизавета Ивтушок

Права на данный материал принадлежат
Материал размещён правообладателем в открытом доступе
  • В новости упоминаются
Проекты
13 комментариев
№1
23.10.2020 11:08
Цитата, q
алгоритма для генерирования текста
Кто может объяснить цель разработки этого алгоритма? Кроме как "запудрить мозги неприятелю в интернете" - не вижу зачем эта фигня может пригодиться.
Хотя... Запудрить мозги клиентам Сберу, видимо, тоже надо.
Цитата, q
алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP,
О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.
НАШЁЛ  ПРИМЕНЕНИЕ! Надо своему мальку дать ссылку на эту фигню, чтобы не мучился сочинения придумывать!
Хотя... Пробежал это генерированное эссе про Светлану. Искусственный интеллект написал, что "реальный факт: Светлана стала ведьмой". Нет уж, не буду давать мальку ссылку, а то училка его засмеёт за такие "эссе".
0
Сообщить
№2
23.10.2020 20:57
Цитата, Виктор Алексеевич сообщ. №1
Кто может объяснить цель разработки этого алгоритма?

1. Первая линия технической поддержки
2. Первая линия продвижения новых услуг
3. Рекомендательные системы по запросу
4. Все уровни образования и повышения квалификации

Цитата, Виктор Алексеевич сообщ. №1
О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.

NLP - это раздел ИИ и ML по обработке естественного языка (Natural Language Processing - NLP). Лукавство здесь в том, что NLP не самое популярное направление в ИИ, НО - имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса и Абби.
0
Сообщить
№3
26.10.2020 17:54
Цитата, q
1. Первая линия технической поддержки
Меня уже злят эти "электронные помощники" в техподдержках, которые ни черта понять, а тем более ответить не могут и только задерживают соединение с оператором. Стараюсь выбирать фирмы, у которых нет этих электронных приблуд.
Цитата, q
2. Первая линия продвижения новых услуг
Вот это - может быть: набрать номер, спросить и понять готовы ли слушать рекламу, оттарабанить заложенный текст и потом соединить с оператором - это возможно. Досадно только, что эту говорилку нельзя подколоть, как живую девушку-рекламного агента...
Цитата, Андрей Л. сообщ. №2
3. Рекомендательные системы по запросу
Расшифруйте.
Цитата, Андрей Л. сообщ. №2
4. Все уровни образования и повышения квалификации
Категорически не годятся. Чтобы научить чему-то надо не только знать материал, который преподаёшь, надо ещё уметь понимать, почему этот материале обучаемый не понял. Вот это "почему" - вообще из области искусства.
Цитата, Андрей Л. сообщ. №2
имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса
Эти алгоритмы применяются в Яндекс-переводчике?
0
Сообщить
№4
26.10.2020 18:11
Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?
0
Сообщить
№5
26.10.2020 21:39
Цитата, Os сообщ. №4
Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?

EXE-шник - это смешно :))))))))))))))

Модели натренированные на GPT-3 в свободном доступе под разные языки.

Кроме того, и Сбербанк выложил натренированные на GPT-3 модели русского языка

Есть ещё частный доступ к API GPT-3 от OpenAI
0
Сообщить
№6
26.10.2020 21:53
Цитата, Виктор Алексеевич сообщ. №3
Стараюсь выбирать фирмы, у которых нет этих электронных приблуд.

Учитесь стараться лучше, потому что их будет всё сложнее и сложнее найти.

Цитата, Виктор Алексеевич сообщ. №3
Досадно только, что эту говорилку нельзя подколоть, как живую девушку-рекламного агента...

Досадно, что Вы не понмиаете, что все эти "говорилки" ещё и слушалки и самообучалки, и их динамика, и "желание" самообучения на порядки выше, чем у человека.

Цитата, Виктор Алексеевич сообщ. №3
Расшифруйте.

Алиса - какая будет погода?
Алиса - подбери мне музыку?
Алиса - вызови такси!
Алиса - какие фильмы идут у нас в кинотеатре?

Цитата, Виктор Алексеевич сообщ. №3
Категорически не годятся.

Подождите всего несколько лет.

Цитата, Виктор Алексеевич сообщ. №3
Эти алгоритмы применяются в Яндекс-переводчике?

Яндекс переводчик, Алиса, яндекс навигатор, яндекс такси и т.д.

Как Вы вообще думаете машина понимает неоднословные голосовые команды? Раскладывает их на обслуживающие слова, фоновые и важные?
+2
Сообщить
№7
30.10.2020 20:24
Цитата, Андрей Л. сообщ. №5

Учитывая, что я гуманитарий, по основному для меня образованию, могу не знать нюансов )
Но, поскольку на с# могу что-нибудь простенькое сделать, объясните кратко, "на пальцах", как это можно использовать в личных целях? Как натренированную модель использовать в каком-нибудь своем проекте?
0
Сообщить
№8
01.11.2020 07:45
Цитата, Os сообщ. №7
Как натренированную модель использовать в каком-нибудь своем проекте?

Есть специализированные библиотеки во всех (современных) языках программирования и в зависимости от того, что Вы хотите сделать - генерировать текст, распознавать, классифицировать, анализировать, Вам надо будет вызывать определенные методы, которые понимают полученную модель и способны вернуть из неё результат.

За Си ничего сказать не могу, не пишу на нем вообще, но сам в готовые модели верю не очень, потому что результат очень зависит от кучи параметров обучения, а не только от объемов выборки и качества самого алгоритма - много зависит от уровня тех ребят, которые обучали модель. А это всегда темная лошадка - одни и те же данные, обученные одним и тем же алгоритмом, но с разными гиперпараметрами и разными подходами к подготовке данных к обучению - дадут очень разный результат.

Реально чьим обученным моделям можно верить точно - это моделям от создателей алгоритмов. Но что от этого толку, если с русским языком у них в принципе огромные проблемы ещё на стадии токенизации по предложениям.

Если Вы Сишник, то для Вас идеально - API к GPT3, без готовых моделей. НО - это надо очень глубоко погрузиться в алгоритм, чтобы понять почему он ведет себя так, а не иначе.
+1
Сообщить
№9
01.11.2020 09:10
Цитата, Андрей Л. сообщ. №6
Яндекс переводчик, Алиса, яндекс навигатор, яндекс такси и т.д.
Да, Яндекс-переводчик за последний год сделался вполне себе адекватным при переводе с английского на русский, иногда целые куски текста не требуется править, чем обучать эту приблуду. С немецкого у Яндекса пока не шибко получается, явно, переводимых тестов и, соответственно, учителей меньше.
А вот Яндекс-навигатор только вчера никак не мог понять адрес "Улица Больничная, дом 3" и упорно находил больницу №3. И как его научить? И куда отошлёт вызванное такси Яндкс-такси?!
Цитата, Андрей Л. сообщ. №6
Как Вы вообще думаете машина понимает неоднословные голосовые команды? Раскладывает их на обслуживающие слова, фоновые и важные?
Я вообще не понимаю. Я даже не понимаю как я сам это делаю. Я просто делаю.
0
Сообщить
№10
01.11.2020 09:49
Цитата, Виктор Алексеевич сообщ. №9
Да, Яндекс-переводчик за последний год сделался вполне себе адекватным при переводе с английского на русский, иногда целые куски текста не требуется править, чем обучать эту приблуду. С немецкого у Яндекса пока не шибко получается, явно, переводимых тестов и, соответственно, учителей меньше.
А вот Яндекс-навигатор только вчера никак не мог понять адрес "Улица Больничная, дом 3" и упорно находил больницу №3. И как его научить? И куда отошлёт вызванное такси Яндкс-такси?!

так вот для того что бы все хорошо работало и проводят такие работы по улучшению алгоритмов .
и чем крупнее контора за нее берется , тем больше денег она туда вваливает , и даже у нас в стране это дает большой эффект .
направление работ правильное , свой софт и ОСи надо развивать .
и сбер можно по многим причинам говном поливать , но деньги они тратятся разумно .
и емнип наши неплохо продвинулись в квантовых вычислениях , нам бы еще что то наподобие xilinx свою иметь . но увы пока это мечты .
0
Сообщить
№11
01.11.2020 10:56
Цитата, Виктор Алексеевич сообщ. №9
Я вообще не понимаю. Я даже не понимаю как я сам это делаю. Я просто делаю.

Это и есть конечная цель, чтобы Вы делали не задумываясь, а у Вас всё получалось и это было для Вас абсолютно естественно, так же как ходить или дышать.
0
Сообщить
№12
01.11.2020 14:32
Цитата, Андрей Л. сообщ. №8

Большое спасибо за разъяснение.
0
Сообщить
№13
19.11.2020 08:30
Цитата, Os сообщ. №12
Большое спасибо за разъяснение.

Вот материал, переведенный, который чуть-чуть раскрывает риски неточностей внутри ИИ моделей и уровень доверия к ним.
+1
Сообщить
Хотите оставить комментарий? Зарегистрируйтесь и/или Войдите и общайтесь!
ПОДПИСКА НА НОВОСТИ
Ежедневная рассылка новостей ВПК на электронный почтовый ящик
  • Разделы новостей
  • Обсуждаемое
    Обновить
  • 21.01 13:46
  • 200
Россия приняла на вооружение новую боевую машину поддержки танков "Терминатор-2", разработанную специально для уличных боев: это настоящий "комбайн смерти"! (Sohu, Китай)
  • 21.01 13:38
  • 0
Где меч, там и щит – Беларусь наращивает боевой потенциал вооружённых сил
  • 21.01 13:16
  • 0
Линия «Хренина»
  • 21.01 12:42
  • 1
Названо место России в военном кораблестроении
  • 21.01 12:29
  • 19
Холодная война. Что будет с армией при минус 50 по Цельсию
  • 21.01 11:34
  • 7047
Без кнута и пряника. Россия лишила Америку привычных рычагов влияния
  • 21.01 00:13
  • 0
Когда и кем начато создание "новых" ВС РФ?
  • 20.01 23:24
  • 5
Опубликованы кадры работы вертолета Ми-8ПСГ в курском приграничье
  • 20.01 18:19
  • 0
Беларусь – агрессор, Польша – жертва
  • 20.01 17:24
  • 18
Против дронов и скрытых целей. В российскую армию поступают новые зенитки
  • 20.01 12:27
  • 2
Запуски New Glenn и SpaceX Starship: космический аппарат Маска потерпел крушение, испытания ракеты Безоса были более успешными
  • 20.01 11:22
  • 1
В Новосибирске создали новый вариант космического водного двигателя
  • 20.01 06:48
  • 1
Система SkyOS позволит управлять боевым вертолетом даже новичку
  • 19.01 10:04
  • 1455
Корпорация "Иркут" до конца 2018 года поставит ВКС РФ более 30 истребителей Су-30СМ
  • 18.01 04:58
  • 1
РФ готова продолжить сотрудничество с ЦАР в сфере безопасности, оказывать гумпомощь поставками зерна - Путин