GPT-4.5: новий етап у розвитку мовних моделей

watch 12s
views 2

18:39, 28.02.2025

Випущено нову мовну модель GPT-4.5, яка буде природнішою ніж попередні версії, але цінова політика буде вищою.

Наразі GPT-4.5 доступний як «Research Preview» для розробників та юзерів Pro версії. Наступного тижня планується відкриття доступу для юзерів Team і Plus.

Значна відмінність версії GPT-4.5 від моделі o3-mini та о1 полягає в тому, що нова версія відповідає набагато швидше через зміни в підході до «неконтрольованого навчання». Оскільки нова модель не думає перед відповіддю, продуктивність значно збільшилася.

GPT-4.5 також відома під назвою Orion і є найбільшою навченою моделлю на даний момент. OpenAI заявляють, що нова модель не буде «прикордонною» такі заяви від компанії, можливо, пов'язані з навчанням ще однієї моделі о3.

Ціна модель значно вища за версію GPT-4o і о1 і становить $75 (за мільйон вхідних токенів) і $150 (за мільйон вихідних). Як і попередні версії, цей варіант матиме довжину контексту в 128 000 токенів.

У компанії OpenAI заявили, що 2 основні підходи (розмірковування і навчання) будуть використовуватися як взаємодоповнювані варіанти. Версія 4.5 вже стала значно інтелектуальнішою через попереднє навчання. Також є велика можливість, що нова версія GPT-5 зможе об'єднати ці 2 можливості.

Результати бенчмаркінгу

Що стосується тестів продуктивності, то модель 4.5 показує хороші результати і досягає 62.5% за SimpleQA. У тому ж тесті Grok 3 показав результат у 43.6%, а GPT-4o - 43,6%. Рівень галюцинацій також значно знижений до рекордних 37,1%. Також нова версія 4.5 домінує в тестах на оцінку людей у повсякденних питаннях, творчому інтелекті, і професійних питаннях.

У тестах STEM результати варіюються від моделей. Наприклад, у тесті AIME '24 модель 4.5 показує результат у 36,7%, o3-mini - 87,3% і GPT-4o - 9,3%. У тесті SWE-Bench Verified результат становить 38,8%, у той час як o3-mini - 61,0% а GPT-4o - 30,7%.

Якщо порівнювати результати всіх бенчмарків, то показники доволі стабільні і немає значного стрибка в продуктивності як показав SimpleQA.

Поділитися

Чи була ця стаття корисною для вас?

Популярні пропозиції VPS

Інші статті на цю тему

Випуск PHP 8.3
Випуск PHP 8.3
cookie

Чи приймаєте ви файли cookie та політику конфіденційності?

Ми використовуємо файли cookie, щоб забезпечити вам найкращий досвід роботи на нашому сайті. Якщо ви продовжуєте користуватися сайтом, не змінюючи налаштувань, вважайте, що ви згодні на отримання всіх файлів cookie на сайті HostZealot.