Войти

Сбер обучил GPT-3 на 600 гигабайтах русских текстов

3799
13
0
Эссе, сгенерированное GPT-3, обученной на русских текстах
Эссе, сгенерированное GPT-3, обученной на русских текстах.
Источник изображения: nplus1.ru

Разработчики из Сбера представили русскоязычную версию алгоритма для генерирования текста GPT-3, представленную в мае этого года. Чтобы обучить систему, команда собрала корпус из 600 гигабайтов русскоязычных текстов, включая корпус русской литературы, новостные сайты и публичные разделы Pikabu. В самой большой обученной модели, GPT-3 Large, 760 параметров, а саму модель выложили в открытый доступ. Подробнее об этом можно прочитать в блоге руководителя проекта Сергея Маркова на «Хабре».

В мае этого года разработчики из Open AI представили GPT-3 — новую версию своего алгоритма для генерирования текстов. Несмотря на использование той же самой архитектуры, что и в GPT-2, в новой версии разработчики увеличили количество используемых параметров, данных для обучения и способностей: GPT-3 умеет не только генерировать отдельные тексты, но также и отвечать на вопросы по прочитанному материалу, решать простые арифметические примеры, расшифровывать анаграммы и составлять стихи.

Кроме того, GPT-3 умеет переводить: разработчики не стали ограничивать язык текстов при сборе данных, так что в выборку попали семь процентов не англоязычных текстов. При этом текстов на других языках все же недостаточно для того, чтобы модель показывала похожие на английский язык результаты для других языков: на них ее нужно обучать отдельно.

Сделать это для русского языка решили разработчики из Сбера. Для обучения GPT-3 на русском языке они совместно с разработчиками из AGI NLP собрали корпус текстов размером 600 гигабайтов (для сравнения, при обучении оригинальной GPT-3 разработчики Open AI использовали 570 гигабайтов текстов). Для обучения использовали корпус русской литературы, русскую и английскую «Википедию», новостные сайты, публичные разделы сайта Pikabu и корпус Omnia Russica. Как и в случае с оригинальной англоязычной моделью GPT-3, модель Сбера не полностью русскоязычная: доля иностранных языков в обучающей выборке составила 10 процентов.

Разработчики Сбера для обучения взяли модель GPT-3 Large: Open AI представили несколько моделей GPT-3, отличающиеся количеством параметров (от 125 миллионов до 175 миллиардов в самой последней версии), и в версии Large параметров (устанавливаемых в самом начале обучения) — 760 миллионов (также разработчики обучили и GPT-3 Middle — в ней 356 миллионов параметров).

Для обучения использовали суперкомпьютер «Кристофари», представленный Сбером в прошлом году. Исходный код модели разработчики выложили на GitHub, а его работу можно посмотреть, например, с помощью бота GenerativeBeast_2.0 в телеграме или также — в репозитории. В целом, русскоязычная модель, судя по всему, может все то же самое, что умеет и оригинальная — даже писать небольшие куски «весьма осмысленного» программного кода.

Несмотря на то, что алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP, другие проекты тоже активно развиваются: например, пару дней назад Facebook рассказала о системе машинного перевода, которая обходится без дополнительного шага с переводом текста на английский.

Елизавета Ивтушок

Права на данный материал принадлежат
Материал размещён правообладателем в открытом доступе
  • В новости упоминаются
Проекты
Похожие новости
18.08.2010
Интеллект против фанатизма
14.07.2010
Наш винтокрыл пятого поколения
24.03.2010
Про СНВ и не только
04.02.2010
С почином, "Су"дарь!
30.12.2009
Год "Эгиды"
14.06.2007
Русский истребитель американской гегемонии в воздухе
12.03.2007
Таинственное пятое поколение
13 комментариев
№1
23.10.2020 11:08
Цитата, q
алгоритма для генерирования текста
Кто может объяснить цель разработки этого алгоритма? Кроме как "запудрить мозги неприятелю в интернете" - не вижу зачем эта фигня может пригодиться.
Хотя... Запудрить мозги клиентам Сберу, видимо, тоже надо.
Цитата, q
алгоритмы для генерирования текста сейчас — самое популярное ответвление NLP,
О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.
НАШЁЛ  ПРИМЕНЕНИЕ! Надо своему мальку дать ссылку на эту фигню, чтобы не мучился сочинения придумывать!
Хотя... Пробежал это генерированное эссе про Светлану. Искусственный интеллект написал, что "реальный факт: Светлана стала ведьмой". Нет уж, не буду давать мальку ссылку, а то училка его засмеёт за такие "эссе".
0
Сообщить
№2
23.10.2020 20:57
Цитата, Виктор Алексеевич сообщ. №1
Кто может объяснить цель разработки этого алгоритма?

1. Первая линия технической поддержки
2. Первая линия продвижения новых услуг
3. Рекомендательные системы по запросу
4. Все уровни образования и повышения квалификации

Цитата, Виктор Алексеевич сообщ. №1
О, ну говорю же - мозги пудрить людям: нейро-лингвистическое программирование.

NLP - это раздел ИИ и ML по обработке естественного языка (Natural Language Processing - NLP). Лукавство здесь в том, что NLP не самое популярное направление в ИИ, НО - имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса и Абби.
0
Сообщить
№3
26.10.2020 17:54
Цитата, q
1. Первая линия технической поддержки
Меня уже злят эти "электронные помощники" в техподдержках, которые ни черта понять, а тем более ответить не могут и только задерживают соединение с оператором. Стараюсь выбирать фирмы, у которых нет этих электронных приблуд.
Цитата, q
2. Первая линия продвижения новых услуг
Вот это - может быть: набрать номер, спросить и понять готовы ли слушать рекламу, оттарабанить заложенный текст и потом соединить с оператором - это возможно. Досадно только, что эту говорилку нельзя подколоть, как живую девушку-рекламного агента...
Цитата, Андрей Л. сообщ. №2
3. Рекомендательные системы по запросу
Расшифруйте.
Цитата, Андрей Л. сообщ. №2
4. Все уровни образования и повышения квалификации
Категорически не годятся. Чтобы научить чему-то надо не только знать материал, который преподаёшь, надо ещё уметь понимать, почему этот материале обучаемый не понял. Вот это "почему" - вообще из области искусства.
Цитата, Андрей Л. сообщ. №2
имеющиеся алгоритмы NLP для русского языка сейчас не сильно хороши, кроме закрытых у Яндекса
Эти алгоритмы применяются в Яндекс-переводчике?
0
Сообщить
№4
26.10.2020 18:11
Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?
0
Сообщить
№5
26.10.2020 21:39
Цитата, Os сообщ. №4
Не понял: GPT-3 можно скачать? exe-шник в свободном доступе?

EXE-шник - это смешно :))))))))))))))

Модели натренированные на GPT-3 в свободном доступе под разные языки.

Кроме того, и Сбербанк выложил натренированные на GPT-3 модели русского языка

Есть ещё частный доступ к API GPT-3 от OpenAI
0
Сообщить
№6
26.10.2020 21:53
Цитата, Виктор Алексеевич сообщ. №3
Стараюсь выбирать фирмы, у которых нет этих электронных приблуд.

Учитесь стараться лучше, потому что их будет всё сложнее и сложнее найти.

Цитата, Виктор Алексеевич сообщ. №3
Досадно только, что эту говорилку нельзя подколоть, как живую девушку-рекламного агента...

Досадно, что Вы не понмиаете, что все эти "говорилки" ещё и слушалки и самообучалки, и их динамика, и "желание" самообучения на порядки выше, чем у человека.

Цитата, Виктор Алексеевич сообщ. №3
Расшифруйте.

Алиса - какая будет погода?
Алиса - подбери мне музыку?
Алиса - вызови такси!
Алиса - какие фильмы идут у нас в кинотеатре?

Цитата, Виктор Алексеевич сообщ. №3
Категорически не годятся.

Подождите всего несколько лет.

Цитата, Виктор Алексеевич сообщ. №3
Эти алгоритмы применяются в Яндекс-переводчике?

Яндекс переводчик, Алиса, яндекс навигатор, яндекс такси и т.д.

Как Вы вообще думаете машина понимает неоднословные голосовые команды? Раскладывает их на обслуживающие слова, фоновые и важные?
+2
Сообщить
№7
30.10.2020 20:24
Цитата, Андрей Л. сообщ. №5

Учитывая, что я гуманитарий, по основному для меня образованию, могу не знать нюансов )
Но, поскольку на с# могу что-нибудь простенькое сделать, объясните кратко, "на пальцах", как это можно использовать в личных целях? Как натренированную модель использовать в каком-нибудь своем проекте?
0
Сообщить
№8
01.11.2020 07:45
Цитата, Os сообщ. №7
Как натренированную модель использовать в каком-нибудь своем проекте?

Есть специализированные библиотеки во всех (современных) языках программирования и в зависимости от того, что Вы хотите сделать - генерировать текст, распознавать, классифицировать, анализировать, Вам надо будет вызывать определенные методы, которые понимают полученную модель и способны вернуть из неё результат.

За Си ничего сказать не могу, не пишу на нем вообще, но сам в готовые модели верю не очень, потому что результат очень зависит от кучи параметров обучения, а не только от объемов выборки и качества самого алгоритма - много зависит от уровня тех ребят, которые обучали модель. А это всегда темная лошадка - одни и те же данные, обученные одним и тем же алгоритмом, но с разными гиперпараметрами и разными подходами к подготовке данных к обучению - дадут очень разный результат.

Реально чьим обученным моделям можно верить точно - это моделям от создателей алгоритмов. Но что от этого толку, если с русским языком у них в принципе огромные проблемы ещё на стадии токенизации по предложениям.

Если Вы Сишник, то для Вас идеально - API к GPT3, без готовых моделей. НО - это надо очень глубоко погрузиться в алгоритм, чтобы понять почему он ведет себя так, а не иначе.
+1
Сообщить
№9
01.11.2020 09:10
Цитата, Андрей Л. сообщ. №6
Яндекс переводчик, Алиса, яндекс навигатор, яндекс такси и т.д.
Да, Яндекс-переводчик за последний год сделался вполне себе адекватным при переводе с английского на русский, иногда целые куски текста не требуется править, чем обучать эту приблуду. С немецкого у Яндекса пока не шибко получается, явно, переводимых тестов и, соответственно, учителей меньше.
А вот Яндекс-навигатор только вчера никак не мог понять адрес "Улица Больничная, дом 3" и упорно находил больницу №3. И как его научить? И куда отошлёт вызванное такси Яндкс-такси?!
Цитата, Андрей Л. сообщ. №6
Как Вы вообще думаете машина понимает неоднословные голосовые команды? Раскладывает их на обслуживающие слова, фоновые и важные?
Я вообще не понимаю. Я даже не понимаю как я сам это делаю. Я просто делаю.
0
Сообщить
№10
01.11.2020 09:49
Цитата, Виктор Алексеевич сообщ. №9
Да, Яндекс-переводчик за последний год сделался вполне себе адекватным при переводе с английского на русский, иногда целые куски текста не требуется править, чем обучать эту приблуду. С немецкого у Яндекса пока не шибко получается, явно, переводимых тестов и, соответственно, учителей меньше.
А вот Яндекс-навигатор только вчера никак не мог понять адрес "Улица Больничная, дом 3" и упорно находил больницу №3. И как его научить? И куда отошлёт вызванное такси Яндкс-такси?!

так вот для того что бы все хорошо работало и проводят такие работы по улучшению алгоритмов .
и чем крупнее контора за нее берется , тем больше денег она туда вваливает , и даже у нас в стране это дает большой эффект .
направление работ правильное , свой софт и ОСи надо развивать .
и сбер можно по многим причинам говном поливать , но деньги они тратятся разумно .
и емнип наши неплохо продвинулись в квантовых вычислениях , нам бы еще что то наподобие xilinx свою иметь . но увы пока это мечты .
0
Сообщить
№11
01.11.2020 10:56
Цитата, Виктор Алексеевич сообщ. №9
Я вообще не понимаю. Я даже не понимаю как я сам это делаю. Я просто делаю.

Это и есть конечная цель, чтобы Вы делали не задумываясь, а у Вас всё получалось и это было для Вас абсолютно естественно, так же как ходить или дышать.
0
Сообщить
№12
01.11.2020 14:32
Цитата, Андрей Л. сообщ. №8

Большое спасибо за разъяснение.
0
Сообщить
№13
19.11.2020 08:30
Цитата, Os сообщ. №12
Большое спасибо за разъяснение.

Вот материал, переведенный, который чуть-чуть раскрывает риски неточностей внутри ИИ моделей и уровень доверия к ним.
+1
Сообщить
Хотите оставить комментарий? Зарегистрируйтесь и/или Войдите и общайтесь!
ПОДПИСКА НА НОВОСТИ
Ежедневная рассылка новостей ВПК на электронный почтовый ящик
  • Разделы новостей
  • Обсуждаемое
    Обновить
  • 25.04 13:48
  • 3
Инженеры NASA впервые за пять месяцев смогли получить данные о состоянии зонда Voyager-1
  • 25.04 13:42
  • 119
Конкурента российского Су-75 из Южной Кореи впервые представили на выставке
  • 25.04 13:40
  • 463
Международные расчеты, минуя доллар, по странам
  • 25.04 13:10
  • 1034
Без кнута и пряника. Россия лишила Америку привычных рычагов влияния
  • 25.04 12:48
  • 0
«Освей»: Космическая Беларусь берется за строительство самолетов
  • 25.04 10:13
  • 478
Израиль "готовился не к той войне" — и оказался уязвим перед ХАМАС
  • 25.04 09:44
  • 1
Суд арестовал замминистра обороны РФ, на которого ФСБ пять лет собирало материалы по коррупции
  • 25.04 09:30
  • 2
Разящий луч: как развиваются боевые лазеры
  • 25.04 09:27
  • 9
Российские разведывательно-ударные мультикоптеры предложат на экспорт
  • 25.04 09:12
  • 276
Космонавтика Илона Маска
  • 25.04 09:02
  • 26
Национальная политика и миграция
  • 25.04 08:46
  • 19
Командующий ВВС США в Европе о роли авиации в боевых действиях на Украине
  • 25.04 05:17
  • 3
Ходаковский: важно понять, для чего мы начали СВО и как будем дальше жить с побеждённой Украиной
  • 25.04 04:48
  • 2706
Как насчёт юмористического раздела?
  • 25.04 01:52
  • 1
Минобороны РФ проведет в Парке Победы выставку трофейного оружия из зоны СВО