Бенчмарк MERA для русскоязычных языковых моделей Альянса в сфере ИИ представлен на ACL, международной конференции уровня А* — Альянс в сфере искусственного интеллекта

Если вы заинтересованы в сотрудничестве и готовы вкладывать усилия в развитие ИИ в России, напишите нам на
info@a-ai.ru

Бенчмарк MERA для русскоязычных языковых моделей Альянса в сфере ИИ представлен на ACL, международной конференции уровня А*

16 августа 2024

 

В пятницу, 16 августа 2024 года, в Бангкоке завершилась ведущая международная конференция уровня А*, посвященная технологиям обработки естественного языка, в основном треке которой команда проекта MERA, запущенного Альянсом в сфере ИИ, представила методологию оценки больших языковых моделей, ранее опубликованную в формате научной статьи.

 

В настоящий момент на сайте проекта размещены 17 основных и 4 диагностических задачи. По итогам их решения каждой языковой модели выставляются баллы, и по общей оценке формируется лидерборд. На нем уже представлены 33 публичных сабмита, включая как решения на открытом коде, так и проприетарные.

 

По словам Алены Феногеновой, представительницы Сбера, лидирующей проект, методология MERAнашла отклик у участников конференции: «Мы приятно удивлены вниманием к нашему проекту со стороны международного сообщества. Задачи, подготовленные нами для MERA, — например, не имеющий аналогов тест ruTIE, показались исследователям достойными перевода на другие языки. Интерес и одобрение экспертов вызвал также наш подход к замерам по усредненным промптам вместо одного фиксированного, что позволяет проверять устойчивость модели. Реализация такого проекта – сложный и трудозатратный процесс, и мы рады, что методология бенчмарка MERA получила признание на одной из самых престижных конференций в сфере NLP в мире».

 

В ближайшие месяцы проект Альянса в сфере ИИ по бенчмаркингу языковых моделей будет расширяться за счет добавления новых задач и модальностей. «Роль бенчмарков в истории машинного обучения трудно переоценить. Без ImageNet, в свое время главного бенчмарка для моделей по распознаванию и классификации изображений, такого прогресса в глубоком обучении нейросетей мы бы не увидели. Альянс развивает и MERA как исследовательский проект по оценке языковых моделей, и бенчмарки для узкоспециализированных отраслевых решений, потому что сопоставление моделей позволяет бизнесу находить лучшие продукты, а разработчикам – создавать те, что могут потягаться с лидерами», — считает Алексей Шпильман, глава направления «Практика и данные» Альянса.