Нова архіт¡ектура Blackwell від Nvidia - нова віха в еволюції графічних процесорів
09:26, 21.03.2024
На заході GTC March 20224 компанія NVIDIA презентувала нову архітектуру чіпів Blackwell, а також графічні процесори B200 на її основі разом із чіпами Grace Blackwell GB200, у яких обидві архітектури будуть об'єднані.
Графічний процесор B200 має 208 мільярдів транзисторів порівняно з 80 мільярдами H100/H200, які раніше використовували в центрах оброблення даних, і забезпечує 20 петафлопс продуктивності ШІ на один GPU (порівняно з 4 петафлопс у H100). Такий чіп матиме 192 ГБ пам'яті HBM3e з пропускною спроможністю до 8 ТБ/с.
На відміну від більш традиційних GPU, Blackwell B200 є свого роду подвійним процесором, оскільки складається з двох об'єднаних кристалів, що працюють як один процесор CUDA, з'єднаних інтерфейсом NV-HBI NVIDIA High Bandwidth Interface зі швидкістю 10 ТБ/с. Blackwell B200 виробляється за техпроцесом TSMC 4NP. Кристали оснащені стеками HMB3e, кожен з яких має 24 ГБ і пропускну здатність 1 ТБ/с.
На даний момент найпотужнішим анонсованим рішенням є чіп GB200, що складається з двох графічних процесорів B200.
Для з'єднання декількох вузлів Nvidia представляє п'яте покоління чіпів NVLink з двонаправленою пропускною спроможністю 1,8 ТБ/с, що складається з 50 мільярдів транзисторів і виготовлене за техпроцесом TSMC 4NP.
Кожен графічний процесор Blackwell має 18 каналів зв'язку через NVLink, що в 18 разів більше, ніж у випадку з H100. Оскільки кожен канал має двонаправлену пропускну спроможність 50 ГБ/с, що означає 100 ГБ/с на з'єднання, великі групи вузлів GPU працюватимуть практично як один величезний блок GPU.
Крім того, чіпи з новими інтерфейсами входять до складу сервера NVIDIA B200 NVL72, який представляє собою 18-серверне повнофункціональне стоєчне рішення з 18 серверами 1U, кожен з яких оснащений чіпами GB200 і процесором Grace на кожні два GPU B200. Це означає, що кожен обчислювальний вузол GB200 NVL72 має два суперчипи GB200, а кожна стійка містить два CPU Grace і чотири GPU B200 з продуктивністю 80 петафлопс FP4 AI і 40 петафлопс FP8 AI.
Повний GB200 складається з 36 CPU Grace і 72 GPU Blackwell з продуктивністю 720 петафлопс FP8 і 1440 петафлопс FP4. Багатовузлова пропускна здатність цього сервера становить 130 ТБ/с і дає змогу обробляти до 27 трильйонів параметрів мовної моделі ШІ.