Разметка качества кросс-языкового поиска похожих научных статей

Не знаете, чем ещё занять себя на карантине? 10 000 деталей пазла собираются за полчаса, все курсы на Coursera давно пройдены, а холодильник забит вашими кулинарными шедеврами из гречки? Выход есть: достаточно найти пульт от времени и промотать всё туда, где уже можно гулять по улицам, выпить кофе в любимой кофейне, увидеться с друзьями и отправиться в путешествие! Одна проблема: такого пульта нет ☹️.

Но можно ускорить время, подарив свой час науке 😉 Ничего сложного: достаточно полистать статьи на русском и английском, опубликованные на российских NLP-конференциях, и оценить качество кросс-языкового поиска похожих. Звучит заманчиво? Тогда стучитесь к телеграм-боту @RusNLP_bot за спасением или просто выберите одну или несколько из анкет ниже! А ощутить свой вклад однажды можно будет на сервисе RusNLP.

Формы для разметки

  1. Форма 1
  2. Форма 2
  3. Форма 3
  4. Форма 4
  5. Форма 5
  6. Форма 6
  7. Форма 7
  8. Форма 8
  9. Форма 9
  10. Форма 10

Инструкции

Пример разметки качества поиска на RusNLP from Петр Ф on Vimeo.

Зачем нужна эта форма?

В рамках нашего проекта изучаются различные программные методы подбора рекомендованных научных статей. Все эти статьи взяты с сайтов российских конференций по компьютерной лингвистике. Для оценки качества используемых методов необходима участие людей, которые могли бы оценить, действительно ли получаемые результаты соответствуют нашей задаче – показать статьи схожей тематики.

Требования к аннотатору

Заполняющий эту форму должен иметь некоторые базовые знания, чтобы понимать научные статьи по компьютерной лингвистике. Поэтому есть 2 обязательных требования:

  1. Владеть английским и русским языками

  2. Соответствовать хотя бы одному из следующих критериев:

    • быть студентом бакалавриата (3-4 курс)/магистратуры по компьютерной лингвистике и смежным направлениям

    • получить диплом бакалавра /магистра в данной области

    • работать в сфере, связанной с Natural Language Processing

Как проходить форму?

На каждой странице формы будет дана ссылка на статью (статья запроса). Необходимо перейти по этой ссылке и внимательно ознакомиться со статьей. Помимо оглавления, аннотации и основного текста, важно также обращать внимание на авторов и библиографию. Рекомендуем оставить вкладку открытой, т.к. дальше вы будете сравнивать эту статью с остальными. Затем будут приведены результаты выдачи 4-х поисковиков (по 5 статей). Надо будет перейти по каждой из этих ссылок и оценить релевантность данной рекомендации по отношению к статье запроса. Каждый поисковик оценивается по шкале от 0 до 5, где 0 – ни одна статья не подходит, 5 – все статьи релевантны.

Что такое релевантность поисковой выдачи?

Мы считаем релевантной тематически схожую статью. Тематическая область должна быть достаточно узкой, т. е. если обе статьи про лингвистику, компьютерные методы или французский язык, то это не означает, что они похожи. Однако не стоит впадать и в другую крайность, помечая нерелевантными те статьи, в которых говорится о применении одного и того же метода при решении одной и той же проблемы, но в документах разных областей (например, медицина и право). Основная задача – отсеять «бракованные» статьи, которые не имеют никакого отношения к статье запроса.

Пример полностью релевантной выдачи

Статья запроса: «Применение дистрибутивных методов для оценки семантического сдвига глаголов русского языка»

Предлагаемые поисковиком статьи: «Слепые пятна дистрибутивной семантики», «How to Measure Semantic Change?», «Могут ли векторные представления слов отслеживать их коннотации?»

Пример абсолютно нерелевантной выдачи

Статья запроса: «Проблемы автоматического извлечения ключевых слов в русском языке»

Предлагаемые поисковиком статьи: «Применение нейросетей в автоматическом переводе с русского на английский», «Автоматическое распознавание рукописей старорусского периода», «Text Generation System for Three Slavic Languages»

На что обратить внимание?

  • Не стоит тратить на одну статью более 5 минут! Заполнение одной формы не должно занять более получаса

  • Поисковик может рекомендовать статьи на 2 языках, т. к. мы используем методы кросс-языкового поиска

  • Некоторые ссылки будут вести к сборнику статей. Для поиска нужной статьи мы предоставляем первые 3 слова её заголовка

  • Ряд статей размещен на сайте издательства Springer. Если у вас нет подписки на полные тексты статей, то достаточно ознакомиться с общедоступной информацией (аннотация, ключевые слова, литература)


Creative Commons License
RusNLP by https://nlp.rusvectores.org is licensed under a
Creative Commons Attribution-ShareAlike 4.0 International License.