ОАО "Объединенная приборостроительная корпорация"

Лингвистический процессор от «ОПК» научит компьютер анализировать тексты любой сложности

Разделы: Электроника и оптика, Рынки и сотрудничество, Новые разработки

2981

1

+4

Логотип Объединенной приборостроительной корпорации.

Источник изображения: Объединенная приборостроительная корпорация

«Объединенная приборостроительная корпорация», входящая в Госкорпорацию Ростех, и российская компания «АвикомпСервисез» анонсировали выход на рынок совместного проекта - лингвистического процессора Ontosminer, который является основой для построения сложных систем текстового мониторинга и интеллектуального анализа данных. Программный продукт, базирующийся на последних разработках в области машинного обучения и технологиях BigData, позволяет компьютеру «чувствовать» морфологию, синтаксис языка, «понимать» семантику отдельных слов и текста в целом. В качестве эксперимента с сегодняшнего дня тестовая версия программы открыта для вузов и научно-исследовательских учреждений в бесплатном режиме.

«Это еще одна ступень на пути к созданию искусственного интеллекта. Мы научили машину понимать и анализировать письменную речь, извлекать из нее необходимые факты и смыслы, - говорит директор департамента инновационного развития «Объединенной приборостроительной корпорации» Александр Калинин. - Сегодня общеизвестно: 85 процентов информации содержится не в базах данных, а в текстах, и задача дня – научиться эту информацию находить. Над созданием подобных систем активно работают крупнейшие зарубежные компании, такие, как Google и Facebook. В России это, без преувеличения, первая собственная разработка такого уровня».

Сфера возможного применения лингвистического процессора очень широка. Среди задач, которые он способен решать – поиск необходимых сведений, мониторинг СМИ, анализ больших массивов данных, систематизация документооборота и информации (статистической, научно-технической, правовой, медицинской и т.д.).

В отличие от традиционных поисковых систем в качестве запроса здесь выступает не отдельное слово, а целый документ (отрывок текста, статья и т.д.), после загрузки которого система выдает все, что есть на заданную тему в информационном пространстве. В ходе выполнения задачи Ontosminer ориентирован именно на смысл текстов, а не механически ищет ключевые слова, что значительно повышает результативность и качество отработки запроса. По итогам анализа всего массива информации комплекс способен автоматически сформулировать краткое резюме, где изложена суть события, ситуации или проблемы.

Лингвистические процессоры являются центральным компонентом и наиболее охраняемым know-how систем интеллектуального анализа. Ранее их создание требовало усилий больших команд лингвистов, которые вручную составляли правила разбора документов, создавали словари и сложные схемы семантических связей между словами, затем это все переводилось на язык машин. Как отмечают разработчики, Ontosminer выводит возможности текстового анализа на новый уровень. Система построена на принципах машинного обучения, когда помощь лингвистов больше не требуется - компьютер, обрабатывая большое количество текстов, «учит» себя сам понимать их смысл. В настоящий момент в «голове» у лингвистического процессора - десятки миллионов документов. В перспективе этот показатель будет увеличен до нескольких сотен миллионов, что сделает его возможности еще более впечатляющими.

Одним из участников проекта выступает Высшая школа экономики. Ученые вуза – математики и лингвисты – принимали непосредственное участие в создании нового программного продукта.

«Когда мы говорим о возможностях искусственного интеллекта, то подразумеваем, что компьютер учится сам генерировать программы обработки «больших данных» в соответствии с задачей, которую формулирует человек, – рассказывает проректор ВШЭ Андрей Жулин. – Например, мы даем задание машине обработать миллионы страниц текста, проанализировать их и запомнить все семантические связи между словами, а затем просим выделить какие-то факты, давая ей примеры необходимых результатов, и дальше она выполняет работу самостоятельно. Если раньше традиционное программирование таких аналитических функций требовало серьезных человеческих, временных и, соответственно, финансовых ресурсов, то теперь мы получаем возможность извлекать информацию дешево, быстро и качественно. Учитывая, что многие современные бизнесы построены на использовании информации, различных данных, в том числе больших данных, перспективы этого продукта - огромные. Кроме того, технология позволяет решать и большой спектр исследовательских, образовательных задач. С его помощью можно быстро и качественно обрабатывать текстовую информацию, получать объективные результаты и измерения в области лингвистики, истории, права, других наук. Например, проводить лексический анализ литературных произведений, анализировать большие массивы нормативно-правовых актов итд».

«В этой технологии заложены большие возможности, – говорит Александр Калинин. – Семантический анализ текста – это то, например, на чем можно выстраивать интеграцию разноформатных информационных баз данных. Проблема очень актуальна, но необходимого прогресса в этой области пока не достиг никто. Кроме того, в этой технологии скрыто будущее робототехники, ведь она может быть применена для анализа изображений и звука, т.е. машина получит возможность «видеть» и «слышать». Причем создать соответствующие продукты будет проще, чем разработать лингвистический процессор, поскольку язык обладает огромной вариативностью: одно и то же слово может менять значение в зависимости от контекста, в речи могут встречаться ошибки. Машина уже сейчас способна понимать все эти нюансы».

С сегодняшнего дня в качестве эксперимента «ОПК» и «АвикомпСервисез» открыли доступ к тестовой версии Ontosminer для российских студентов, научных сотрудников и исследовательских коллективов. Разработчики системы уверены, что такой шаг позволит сделать дальнейший прорыв в области отечественных платформ анализа BigData (больших данных).

Права на данный материал принадлежат ОАО "Объединенная приборостроительная корпорация"
Материал передан ВПК.name правообладателем

В новости упоминаются

Страны

Компании

Проекты

1 комментарий

№1

Sky

16.04.2015 08:22

Цитата, q

Царь – мужчина + женщина = царевна
Принцесса – женщина + мужчина = Принц
Принцесса – тетя + дядя = Принц
Париж – Франция + Германия = Берлин
Вильнюс – Литва + Эстония = Таллин
танк – гусеницы + колеса = тягач, бронеавтомобиль

БМП – гусеницы + колеса = БТР, БРДМ
Лермонтов – поэма + симфония = Рахманинов
Моцарт – симфония + холст = Врубель
Дасаев – футбол + хоккей = Третьяк

Сталин – СССР + Германия = Гитлер
Сталин – война + космос = Хрущев
Виски – Шотландия + Франция = Шампанское
Виски – Шотландия + Япония = Сакэ
лето – телега + сани = зима
трезвого – уме + языке = нетрезвого

Да, с таким ИИ никакой пятой колонны не нужно :(

0

Сообщить

Хотите оставить комментарий? Зарегистрируйтесь и/или Войдите и общайтесь!

Войти через ВКонтакте

ПОДПИСКА НА НОВОСТИ

Ежедневная рассылка новостей ВПК на электронный почтовый ящик

Разделы новостей

Общеотраслевая информация Авиация Космонавтика Ракетные комплексы и артиллерия Автомобилестроение Сухопутная техника Флот Электроника и оптика Робототехника Атомная промышленность и энергетика Боеприпасы и спецхимия ПРО и ПВО Нанотехнологии Стрелковое оружие Специальные и защитные средства Энергетика Тяжелая промышленность Другое и разное

Обсуждаемое
Обновить

18.07 03:26
1

Российский микровертолет преодолеет минные поля

18.07 03:03
2

На Западе оценили планы ударов украинской FP-9 по Москве и Санкт-Петербургу

18.07 02:41
3

Пентагон впервые за 20 лет скрыл отчет о недостатках истребителей F-35

18.07 02:23
11

О Су-57 - свежая (от 19 июня) статье MWM

18.07 02:13
2

На Западе объяснили секрет успешного перехвата ВС России украинских «Фламинго»

17.07 20:23
132

МС-21 готовится к первому полету

17.07 09:58
1

«Кто командир дивизии – ты или я?» Чем грозит частая смена министров обороны на Украине

16.07 21:38
0

Комментарий к "Шерман в РККА: как надёжный танк стал заложником плохой системы"

16.07 20:30
0

Комментарий к "Снова «Трудно быть богом». Как новый сериал обойдется с книгой Стругацких"

16.07 19:58
1

Комментарий к "Почему советский сериал 1980 года «Шерлок Холмс и доктор Ватсон» один из лучших экранизированных произведений Артура Конан Дойля?"

16.07 18:15
0

Комментарий к "«Нет аналогов в мире». Почему лучший автомат заряжания для танков не ставят на Т-90М?"

16.07 17:02
0

Комментарий к "Советские асы сбили 45 самолётов США, потеряв один. Поражение которое Америка не может забыть"

16.07 11:40
16303

Без кнута и пряника. Россия лишила Америку привычных рычагов влияния

16.07 06:56
0

Комментарий к "Почему православная вера в Российской империи держалась исключительно на штыках"

16.07 06:12
0

Пояснения к "А если сравнить некоторые войны"

другие обсуждаемые темы