DeepSeek V3: рекордні результати в бенчах

14:02, 26.03.2025

Зміст статті

Бенчмарки з програмування та математики
Оновлення в моделі

Нова модель DeepSeek без анонсування з'явилася на HuggingFace. І лише через день, з'явився детальний анонс з описом.

Бенчмарки з програмування та математики

DeepSeek-V3-0324 показує рекордні показники, та демонструє значно вищі результати, порівнюючи з DeepSeek-V3, у всіх наступних категоріях:

AIME: 59.4
MMLU-Pro: 81.2
LiveCodeBench: 49.2
GPQA: 68.4

Також у більшості результатів, V3-0324 демонструє кращий результат, аніж Claude 3.5.

У DeepSeek заявили, що їх новий продукт також обганяє Claude 3.7. Після цієї заяви, з'явилися чутки про можливе навчання нової моделі на Claude 3.7. На даний момент немає ніяких підтверджень або спростувань цієї інформації.

Оновлення в моделі

Щодо основних оновлень, вони відносяться до поліпшення коду, і певних змін в ігрових інтерфейсах і веб-сторінках. Крім того, змінено якість Function Calling.

Також, у новому проєкті є хороша база на обробку результатів веб-пошуку та читання файлів. На додаток до цього, нова модель була протестована і відмінно запускається на Mac Studio.

Поділитися