RusNLP: О проекте

Содержание

Примеры использования
Текущая статистика датасета
Подробнее о принципе работы поиска
Публикации по проекту
Команда проекта
Исходный код веб-сервиса

RusNLP — это двуязычный семантический поисковик по статьям, опубликованным на российских конференциях по компьютерной лингвистике:

Мы собрали все публикации на этих конференциях, начиная с 2001 года, и тщательно разметили статьи по авторам и их аффилиациям. Наш поисковик может искать публикации по запросам и показывает статьи на схожую тему, вне зависимости от того, на русском или английском они были написаны. Это позволяет не затеряться как большому массиву статей за всю историю Диалога, который долгое время оставался преимущественно русскоязычной конференцией, так и некоторым статьям с раннего АИСТа, принимавшего публикации на русском до 2014 года.

Примеры использования

Вы можете использовать его так же, как Google Scholar или ArXiv Sanity Preserver, чтобы:

искать публикации, о которых вы не знали;
находить пробелы в русском NLP, требующие дальнейшего изучения;
анализировать исследовательские сообщества и публикационные тренды.

Вопросы, на которые может ответить RusNLP:

Что из статей российского NLP-сообщества можно почитать о синтаксическом парсинге?
Какие есть публикации в российском NLP, похожие на уже известную мне статью?
Что публиковали в 2008 году компьютерные лингвисты из МГУ?
Представляли ли в 2015 году на конференции AINL какие-либо исследования, связанные с перифразированием?
Чему были посвящены русскоязычные публикации в 2019 году?

Текущая статистика датасета:

Всего статей: 2065
Уникальных авторов: 1683
Уникальных аффилиаций: 393

Скачать весь датасет в виде базы данных Sqlite

Подробнее о принципе работы поиска

В основе поиска лежит дистрибутивная семантика — концепция, предполагающая, что слова с общим значениям встречаются в общих контекстах. Сначала мы усреднили вектора всех словоформ в тексте, чтобы получить вектора статей. Так как мы использовали для этого специальные эмбеддинги, в которых русские и английские словоформы находятся в одном векторном пространстве*, получилось, что каждая статья в числе ближайших соседей — наиболее похожих по смыслу статей — может иметь текст, написанный на другом языке. Значение косинусной близости между вектором слов или статьи запроса и вектором каждой найденной статьи можно увидеть в столбце Близость к запросу. Кроме того, мы составили список из 24 основных задач в NLP и прописали для каждой из них ключевые слова, указывающие на принадлежность статьи к этой задаче. Предположительные задачи к каждой статье также подбираются при помощи косинусной близости — они отображаются в столбце Задачи в таблице результатов поиска.

*В качестве кросс-языковых эмбеддингов мы использовали MUSE — предобученные на Википедии fastText-модели от Facebook.

Публикации по проекту

RusNLP — часть большого проекта Анализ публикационной активности в российской компьютерной лингвистике.

Amir Bakarov, Andrey Kutuzov and Irina Nikishina. Russian computational linguistics: topical structure in 2007-2017 conference papers // Dialogue-2018
Irina Nikishina, Amir Bakarov and Andrey Kutuzov. RusNLP: Semantic search engine for Russian NLP conference papers // AIST-2018 (Слайды)
Irina Nikishina and Andrey Kutuzov. Double-Blind Peer-Reviewing And Inclusiveness In Russian NLP Conferences // AIST-2019 (Слайды)
Anna Safaryan, Petr Filchenkov, Weijia Yan, Andrey Kutuzov and Irina Nikishina. Semantic Recommendation System for Bilingual Corpus of Academic Papers // AIST-2020 (Слайды)
...

Команда проекта

Основная команда (в алфавитном порядке):

Переход на мультиязычный поиск был осуществлён студентами магистратуры Компьютерная лингвистика Высшей Школы Экономики, Москва в рамках студенческого проекта 2019-2021 гг. В алфавитном порядке:

Анна Сафарян
Дмитрий Куцев
Петр Фильченков
Weijia Yan

Примеры использования

Текущая статистика датасета:

Подробнее о принципе работы поиска

Публикации по проекту

Команда проекта

Исходный код веб-сервиса