Команда MERA Альянса в сфере ИИ провела митап по оценке и сравнению ИИ-моделей

18 апреля 2025

В минувший вторник, 15 апреля, в штаб-квартире Т-Банка – T-Space – состоялся митап бенчмарка MERA от Альянса в сфере ИИ. На мероприятии ведущие специалисты в области искусственного интеллекта обсудили перспективы оценки больших языковых моделей и узкоспециализированных бенчмарков.

Ключевыми спикерами выступили авторы бенчмарка MERA — стандарта для автоматического тестирования русскоязычных LLM, а также создатели российской LLM Arena — ведущей платформы для сравнения языковых моделей в реальном времени.

В ходе дискуссии участники обменялись идеями по развитию следующих направлений:

-принципы построения бенчмарков для текстовых и мультимодальных моделей;

-критерии оценки качества генерации кода LLM;

-бенчмаркинг ИИ-агентов;

-методы сравнения специализированных ML-моделей.

Виктор Тарнавский, директор AI-центра Т-Банка:

«Сильные бенчмарки это win-win для всех компаний в индустрии. Бенчмарки — это способ понять, кто действительно сильный игрок на рынке, а также способ для новых компаний заявить о себе. Что ещё важнее, хорошие бенчмарки развивают сами модели: люди из индустрии знают, что сначала создается новый непреодолимый бенчмарк, и только потом приходят сложные решения, которые его преодолевают.

Развивать их нужно совместно, и мы очень рады такому обсуждению в нашем HQ.»

Алена Феногенова, исполнительный директор, TeamLead команды AGI NLP, Сбер:

«Спасибо команде Т-банка за организацию митапа! Было здорово собрать в одном месте экспертов и пользователей MERA. Такие встречи помогают обмениваться опытом и вместе делать наши инструменты для бенчмаркинга лучше.

Все проекты MERA (Code, Text, Multimodal) — открытые, и мы будем рады, если участники нашего сообщества MERA будут добавлять свои тесты или делиться идеями. Чем больше практических кейсов — тем полезнее решения для всех. Присоединяйтесь к развитию проекта!»

Роман Куцев, основатель LLM Arena:

«На митапе собрались ключевые эксперты GenAI-отрасли — концентрация лидеров мнений на площадке Т-банка была по-настоящему впечатляющей. Особенно приятно было осознавать, что внутри профессионального сообщества сформировалось единое понимание основных векторов развития в области бенчмарков ИИ-агентов. Мы подробно обсудили переход от оценки отдельных LLM к комплексной оценке ИИ-агентов, способных действовать в интерактивной среде, принимать решения, работать с интерфейсами и инструментами, а также два подхода к их созданию — UI based и Text based.

Конечно, не обошли стороной один из ключевых вопросов повестки: стоит ли разрабатывать собственные бенчмарки ИИ-агентов в России и чем они могли бы отличаться от зарубежных аналогов.»

Валерия Занина, технический руководитель доменного обучения GigaСhat, Сбер:

«Благодарю команду Т-банка и Альянса в сфере ИИ за приглашение на митап и интерес к теме индустриальных бенчмарков!

Развитие отраслевых бенчмарков — важная задача, ведь именно реальные задачи бизнеса и отрасли двигают AIвперед. MERA уже сейчас объединяет экспертов и компании, а наша цель — развивать платформу через партнерство с ведущими вузами и промышленными игроками для более узкой и экспертной оценки. Мы уверены, что вместе сможем создать максимально полезные и прикладные бенчмарки, которые будут отвечать на реальные вызовы отраслей, в медицине и сельском хозяйстве, строительстве, компьютерных науках и многих других.»

______________

Бенчмарк MERA, созданный при участии команд Сбербанка, MTS AI, Skoltech AI и НИУ ВШЭ, был представлен на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В прошлом году бенчмарк для русскоязычных LLM стал еще лучше: в него добавились новые датасеты, поддержка API и особенностей SFT-моделей, а также обновленный лидерборд с удобной системой фильтрации результатов.