В первом замере по бенчмарку MERA приняли участие более 20 AI-моделей — Альянс в сфере искусственного интеллекта

Если вы заинтересованы в сотрудничестве и готовы вкладывать усилия в развитие ИИ в России, напишите нам на
info@a-ai.ru

В первом замере по бенчмарку MERA приняли участие более 20 AI-моделей

6 февраля 2024

MERA (Multimodal Evaluation for Russian-language Architectures) — это независимый бенчмарк для оценки фундаментальных моделей для русского языка, совместно разработанный на площадке Альянса в сфере искусственного интеллекта исследователями индустрии  — командами MTS AI и Сбера, а также академическими партнерами Skoltech AI и НИУ ВШЭ. Первые результаты представлены на основе сравнения более 20 моделей, подавших заявку на участие.

 

Для независимой оценки моделей организаторы бенчмарка разработали систему, которая включает 21 задачу в инструктивном формате, замеры ряда популярных открытых моделей для сравнения, кодовую базу, веб-сайт с личным кабинетом и системой оценки, а также человеческий бенчмарк — средняя оценка того, как эти же задания выполняют люди. Бенчмарк будет дорабатываться по результатам работы с экспертами. Подробнее о методологии организаторы бенчмарка рассказали в научной статье. 

 

Сейчас в лидерборде представлены более 20 опенсорсных моделей и модель GigaChat PRO. Он постоянно пополняется, так как создать сабмит на проверку может любой разработчик AI-модели или участники Альянса. Результаты проверки обрабатываются и появляются в личном кабинете. При желании разработчики могут сделать их публичными, после модерации и дополнительной проверки логов и параметров модели организаторами.

 

На данный момент среди AI-моделей, принявших участие в первых замерах, лидирует GigaChat PRO, разработанная Сбербанком.

 

Концепция бенчмарка MERA была анонсирована на международной конференции Сбера AI Journey 2023. В создании тестов участвовали ряд компаний-участниц Альянса, а также академические партнеры Skoltech AI и НИУ ВШЭ. Бенчмарк позволяет оценивать предобученные модели (формат претрейнов), а также модели дополнительно дообученные на инструкционных данных (SFT формат).