NVLM 1.0 від NVIDIA: Потужна альтернатива GPT-4o з вражаючими результатами

14:57, 19.09.2024

NVIDIA анонсувала нове сімейство мультимодальних моделей NVLM (NVIDIA Vision Language Model), які демонструють чудові результати в різноманітних візуальних та мовних завданнях. Сімейство включає три основні моделі: NVLM-D (модель тільки з декодером), NVLM-X (модель X-attention) і NVLM-H (гібридна модель), кожна з яких доступна в конфігураціях з 34 і 72 мільярдами параметрів.

Однією з ключових особливостей моделей є їхня здатність ефективно справлятися з візуальними завданнями. У тесті OCRBench, який перевіряє здатність розпізнавати текст із зображень, модель NVLM-D перевершила GPT-4o від OpenAI, що є важливим проривом у сфері мультимодальних рішень. Крім того, моделі здатні розуміти меми, розбирати людський почерк і відповідати на питання, що вимагають точного аналізу розташування об'єктів на зображеннях.

NVLM також добре показують себе в математичних задачах, де вони випереджають моделі Google і лише на три пункти відстають від лідера, моделі Claude 3.5, розробленої стартапом Anthropic.

Кожна з трьох моделей має свої особливості.

NVLM-D використовує попередньо навчений кодер і двошаровий персептрон, що робить його економічно ефективним, але вимагає більше ресурсів графічного процесора.
NVLM-X використовує механізм перехресної уваги, який краще обробляє зображення з високою роздільною здатністю
NVLM-H поєднує переваги обох моделей, забезпечуючи баланс між ефективністю та точністю.

NVIDIA продовжує зміцнювати свої позиції в галузі штучного інтелекту, надаючи рішення, які можуть бути корисними як для досліджень, так і для бізнесу.

Поділитися