Новая модель Qwen2.5-Max превосходит возможности DeepSeek

watch 11s
views 2

13:29, 31.01.2025

После релизов Qwen2.5, Qwen2.5-VL, стала доступной новая версия Qwen2.5-Max. Новая версия Qwen показывает высшие характеристики за DeepSeek V3 в следующих бенчмарках - GPQA-Diamond, Arena-Hard, LiveCodeBench и LiveBench.

Особенности архитектуры и модели

Версия Max – достаточно масштабный проект модели Mixture of Experts. Уникальностью этой конкретной модели стало обучение на реальных фидбеках от юзеров (RLHF), с использованием Supervised-Fine-Tuning, и конечно же обучение происходило на 20 триллионах токенов.

На данный момент данные о новой версии еще не выложены на GitHub, пока есть только доступ к API и Qwen Chat. Есть большая вероятность, что отсутствие данных на HuggingFace и GitHub свидетельствуют о спешке представить новый проект или о запланированной акции компании для стимуляции перехода на их облачную платформу.

Компания Qwen опубликовала результаты касательно новой модели. По открытых данных таблицы новой версии Qwen в сравнении с LLaMA3.1 и DeepSeek-V3, версия Max превосходит своих конкурентов в большинстве характеристик. В сравнении с Claude Sonnet и GPT, Max версия проигрывает GPT.

Компания инвестировала значительный бюджет в обучающие данные, и превосходство с конкурентами существует, но она относительно незначимое. Потому некоторые эксперты придерживаются точки зрения, что расширить возможности языковых моделей можно с помощью вычислительной мощности во время тестирования.  

Поділитися

Чи була ця стаття корисною для вас?

Популярні пропозиції VPS

Інші статті на цю тему

cookie

Чи приймаєте ви файли cookie та політику конфіденційності?

Ми використовуємо файли cookie, щоб забезпечити вам найкращий досвід роботи на нашому сайті. Якщо ви продовжуєте користуватися сайтом, не змінюючи налаштувань, вважайте, що ви згодні на отримання всіх файлів cookie на сайті HostZealot.