С развитием NLP-моделей возникла необходимость в оценке их работы. В этой статье вы узнаете, что такое Russian SuperGLUE и какая русскоязычная NLP-модель признана лучшей.
NLP-модели
В 2017 году исследователи из Google представили нейросетевую архитектуру Transformer, которая привела к бурному развитию моделей машинного обучения для обработки естественного языка (NLP).
NLP-модели решают разные задачи: от анализа и обработки текста до генерации речи. Обычно они работают с английским языком, показывают state-of-the-art в какой-нибудь прикладной задаче и только спустя некоторое время начинают работать с другими языками. Подобных моделей существует очень много, но как понять, какая из них лучшая?
SuperGLUE
В 2018 году DeepMind совместно с группой ученых запустила проект GLUE (General Language Understanding Evaluation) — рейтинг NLP-моделей по результатам выполнения заданий. Вскоре появился SuperGLUE — улучшенный бенчмарк (тест на производительность). Там можно посмотреть, насколько хорошо модель отвечает на вопросы, распознает тональность текста или понимает его логику. Важно, что модель оценивают по тому, как она справилась со всеми заданиями, а не с каким-то конкретным.
В итоге получается лидерборд с результатами разных NLP-моделей.
Зайцева В.В.
SuperGLUE отлично подходит для ранжирования англоязычных моделей, но оценить качество русскоязычной или мультиязычной модели с его помощью нельзя. При этом возможность сравнивать NLP-модели по объективным метрикам критически важна: разработчикам нужно оценивать собственный прогресс и понимать, какие модели они могут использовать.
Russian SuperGLUE
В 2020 исследователи из AGI NLP Сбербанка, лаборатории Noah’s Ark Huawei и факультета компьютерных наук ВШЭ представили Russian SuperGLUE — первый рейтинг NLP-моделей для русского языка. Для этого они создали набор задач по аналогии с SuperGLUE, которые отражают особенности русского языка, например, более свободный порядок слов, чем в английском. То есть устроили NLP-моделям экзамен по русскому языку)
Всего таких наборов задач — девять. Тексты для задач и обучения исследователи брали из открытых источников (литература, новости). Вот, например, задача на целеполагание. Модель должна понять ситуацию и причину, по которой эта ситуация произошла. В примере ниже второй вариант — правильный.
Зайцева В.В.
С помощью лидерборда можно понять, в каких задачах хороша та или иная модель, и выбрать подходящую. Средний результат человека в этом лидерборде — 81,1%, а лучшей модели — FRED-T5 от Сбера и SberDevices — 76,2%, то есть нейросети не сильно отстают от людей.
Зайцева В.В.
Russian SuperGLUE стал спасением для разработчиков, которые хотели объективно оценить качество работы русскоязычных NLP-моделей. Кстати, это открытый проект, то есть вы можете протестировать свою NLP-модель и даже добавить ее в лидерборд! Только перед использованием советуем прочитать инструкцию.
Автор текста: Вита Зайцева
Иллюстрация: нейросеть Midjourney
No responses yet