Mergulhe nas arquiteturas de GPU @nvidia 🐰 Hopper vs ⚙️ Blackwell—saltos sucessivos em poder de computação e interconexões para as suas cargas de trabalho de IA👇
🐰 Hopper (H100 e H200) introduziu núcleos Tensor de 4ª geração + um motor Transformer FP8, proporcionando até 9× mais rápido no treinamento e 30× mais rápido na inferência em comparação com o A100. ⚙️ Blackwell (B200)—com envio previsto para o final de 2024—combina dois dies sobre um NV-HBI de 10 TB/s, adiciona FP4 e utiliza NVLink-5 para até 30× de inferência em cluster.
@nvidia 🐰 Especificações do Hopper Núcleos Tensor: misto FP8/FP16/TF32 Memória: - H100 → 80 GB HBM3 @ 3.35 TB/s - H200 → 141 GB HBM3e @ 4.8 TB/s NVLink: até 900 GB/s por GPU
@nvidia 🐰 Hopper em ação Os benchmarks mostram que o H200 está a alimentar a inferência do Llama-2 70B de 45 a 100% mais rápido em comparação com o H100. ⚠️ Ambos enfrentaram escassez de fornecimento em 2023–25. 💻 Na nuvem da Hyperbolic: VMs H100 e clusters bare-metal com Ethernet + InfiniBand a partir de $1.49/hora. H200 e B200 via cotação instantânea.
@nvidia ⚙️ Inovações Blackwell - Design de chiplet (TSMC 4NP, 208 B transistores, 10 TB/s NV-HBI) - Motor Transformer de 2ª geração: FP4 + FP8 melhorado - NVLink-5: 18 links @ 1.8 TB/s total - Motor de descompressão: 800 GB/s CPU↔GPU - RAS completo & Computação Confidencial
📊 Comparação de Desempenho H100 SXM: 80 GB @ 3.35 TB/s, 3.96 PFLOPS (FP8), 1.98 PFLOPS (FP16), 67 TFLOPS (FP32), NVLink 900 GB/s, 700 W H200 SXM: 141 GB @ 4.8 TB/s, mesmos PFLOPS/TFLOPS de computação, NVLink 900 GB/s, 700 W HGX B200: 180 GB @ 7.7 TB/s, 9 PFLOPS (FP8), 4.5 PFLOPS (FP16), 75 TFLOPS (FP32), NVLink 1.8 TB/s, 1000 W
@nvidia ❓ O que é um FLOP? 1 operação de ponto flutuante (adição/multiplicação) 1 TFLOP = 10¹² ops/s 1 PFLOP = 10¹⁵ ops/s = 1000× um TFLOP Essas métricas mostram quão rápido as GPUs processam a enorme matemática por trás do treinamento de IA e HPC.
@nvidia 🔚 Conclusão: 🐰 Hopper estabeleceu o padrão com FP8 de precisão mista e pipelines assíncronos. ⚙️ Blackwell avança para a próxima geração com FP4, mais memória, NVLink-5. H100 continua a ser o cavalo de batalha—alugue por $1.49/hora. H200 & B200 disponíveis mediante solicitação via
@nvidia Leia o artigo completo em:
4,37K