Если вы заинтересованы в сотрудничестве и готовы вкладывать усилия в развитие ИИ в России, напишите нам на
info@a-ai.ru
На AI Journey 2025 был официально представлен MERA Multi – новый бенчмарк для комплексной оценки мультимодальных способностей современных моделей на русском языке. Бенчмарки экосистемы MERA – это независимая система тестов для проверки возможностей больших языковых моделей на русском языке. Ранние версии MERA включали текстовые тесты и специализированные разделы (например, MERA Code для задач программирования и MERA Industrial для отраслевых сценариев).
С выпуском MERA Multi экосистема расширяется: теперь модели оцениваются также по задачам на понимание изображений, аудио и видео. Это первый открытый мультимодальный бенчмарк, созданный экспертами с учётом языковой и культурной специфики России.
MERA Multi включает 18 новых задач, разработанных по методологии бенчмарка MERA Text. Эти задачи проверяют ключевые мультимодальные умения моделей:
Каждая задача оформлена в строгом инструктивном формате. MERA Multi охватывает четыре модальности – текст (как базовая), изображения, аудио и видео – и оснащен прозрачной системой подсчёта баллов и рейтингов. Для исследователей и индустрии это значит, что теперь можно количественно сравнивать насколько хорошо современные модели «видят», «слышат» и понимают контент на русском языке.
Проект MERA Multi также способствует стандартизации оценки ИИ в России. Разработчики создали единую «таксономию навыков» – системное описание компетенций, нужных для мультимодальных задач. В перспективе все бенчмарки MERA будут использовать одну систему навыков, что обеспечивает «согласованную и прозрачную оценку моделей во всех доменах». Такой единый подход упрощает сравнение моделей между собой и выявление направлений для улучшения.
Кроме того, MERA Multi разработан экспертами с учётом российской специфики – это делает результаты особенно релевантными для отечественных научных групп и индустриальных разработчиков.
По словам Валерии Воробьёвой стандартизация критически важна: «Единый подход к оценке моделей позволяет формировать общую «шкалу» качества и координировать усилия внутри страны. MERA Multi создаёт такой стандарт – он даёт российским разработчикам и исследователям понятную методологию сравнения моделей и синхронизирует наши усилия. Это ключевой шаг для развития качественных отечественных ИИ-решений в будущем».
MERA Multi открывает новые возможности для российского ИИ-сообщества: теперь лаборатории, стартапы и крупные компании смогут открыто и объективно тестировать свои мультимодальные модели и видеть, где они сильны, а где – отстают. Появление первого отечественного мультимодального бенчмарка укрепляет российскую ИИ-экосистему и способствует созданию конкурентоспособных мультимодальных моделей