Если вы заинтересованы в сотрудничестве и готовы вкладывать усилия в развитие ИИ в России, напишите нам на
info@a-ai.ru
Команда проекта LLM Arena, открытой онлайн-площадки для сравнения больших языковых моделей в режиме реального времени, воспользовалась бенчмарком MERA Альянса в сфере искусственного интеллекта для тестирования нескольких зарубежных LLM.
Самую высокую строчку в лидерборде MERA заняла Claude 3.7 Sonnet – гибридная модель с быстрым откликом и пошаговой логикой, улучшенными навыками кодирования и поддержки многоступенчатых процессов. За ней следуют Gemini Flash 2.0 – мультимодальная модель с возможностями генерации и редактирования изображений, функциями кодирования и выполнения сложных инструкций, – а также DeepSeek-V3, обученная на ~15 триллионов токенов, которая превосходит многие открытые модели и конкурирует с проприетарными.
На лидерборде MERA в том числе оказались Meta Llama 3.3, мультиязыковая модель для диалогов, показывающая высокие результаты на отраслевых тестах, Claude 3.5 Haiku – ускоренная модель с акцентом на точность в кодировании и эффективную работу в реальном времени, Gemma 3 27B, мультимодальная модель с контекстом до 128k токенов, поддержкой 140+ языков и улучшенными вычислительными способностями, и другие.
Альянс в сфере ИИ представил бенчмарк MERA на международной конференции AI Journey в 2023 году. Впоследствии методологию теста также презентовали на ACL, ведущей научной конференции по компьютерной лингвистике, которая проводится с 1963 года и пользуется поддержкой крупнейших IT-компаний со всего мира, в числе которых Apple, Google Deep Mind, Baidu, IBM и другие. В прошлом году ведущий бенчмарк для русскоязычных LLM стал еще лучше: в него добавились новые датасеты, поддержка API и особенностей SFT-моделей, а также обновленный лидерборд с удобной системой фильтрации результатов.
LLM Arena использует альтернативный подход к сравнению языковых моделей. Пользователи могут бесплатно и анонимно оценивать ответы моделей в парных баттлах, выявляя их сильные и слабые стороны. Такой формат даёт представление о пользовательских сценариях и приближение как модели с ними справляются.