top of page

A100보다 30배 이상 성능이 높은 NVIDIA H100 Tensor Core GPU

GTC 2022에서 NVIDIA Hopper GPU 아키텍처를 기반으로 하는 새로운 ‘NVIDIA H100 Tensor Core GPU(이하 H100 GPU)’ 소식이 있었습니다. H100 GPU는 TSMC에서 7나노 공정으로 만들어 코어 성능을 더 높이고 와트당 성능을 개선하여 전성비도 개선하였습니다. H100 GPU 출시로 인해 AI, HPC 인프라는 새로운 도약의 기회를 맞이하게 되었는데요, 관련해 포스팅 시리즈를 통해 자세히 알아볼까 합니다.


A100과 비교해 최대 30배 가까이 성능 차이를 보여


H100 GPU는 이전 세대인 A100 GPU 보다 더 높은 성능을 제공할 수 있도록 설계한 9세대 GPU입니다. H100은 A100의 설계 사상을 이어 받아 대규모 AI 및 HPC 워크로드 처리를 위한 성능과 확장성을 제공합니다.



그렇다면 H100의 성능은 어느 정도나 될까요? 단순 비교는 어렵지만 인피니밴드 또는 NVLink 기반의 초고속 네트워킹 환경에서 주요 AI, HPC 모델을 H100과 A100 환경에서 훈련할 때 최대 30배 정도 성능 차이가 난다고 합니다. 자세한 벤치마크 결과는 다음 표를 참조 바랍니다. 한 눈에 봐도 A100과 격차가 매우 크게 나타나는 것을 알 수 있습니다.



이처럼 큰 성능 차가 나는 이유는? Hopper GPU 아키텍처에 답이 있습니다. 이 아키텍처는 NVIDIA Grace CPU와 GPU를 단일 환경에 통합한 것입니다. 이에 따라 CPU, GPU가 900GB/s의 대역폭을 통해 상호 통신을 합니다. PCIe Gen5로 연결했을 때보다 7배나 더 빠른 통신이 가능한 것이죠.


H100 GPU의 새로운 혁신


Hopper GPU 아키텍처를 기반으로 하는 H100 GPU는 다음과 같은 새로운 혁신을 약속합니다.

  • 4세대 Tensor Core는 더 광범위한 AI, HPC 작업에서 이전 세대보다 더 빠른 행렬 계산을 수행합니다.

  • 새로운 트랜스포머 엔진으로 AI 모델 훈련과 추론 속도 모두를 높였습니다.

  • 새로운 NVLink 네트워크 연결로 여러 컴퓨팅 노드에서 최대 256개의 GPU 간 통신이 가능합니다.

  • Secure MIG로 보안 측면에서 더 안전하게 인스턴스를 격리할 수 있습니다.


H100 GPU 자세히 보기


H100 GPU는 TSMC에서 7나노 공정으로 만들어 800억 개의 트렌지스터를 내장하여 성능을 크게 높였고, 미세 공정 덕에 전성비(와트당/성능)도 매우 높습니다.

H100 GPU는 다중 GPU 처리 클러스터(GPC), 텍스처 처리 클러스터(TPC), 스트리밍 멀티프로세서(SM), L2 캐시 및 HBM3 메모리 컨트롤러로 구성됩니다. H100 GPU의 전체 구현에는 다음 장치가 포함됩니다.

  • 8개의 GPC, 72개의 TPC(9개의 TPC/GPC), 2개의 SM/TPC, 전체 GPU당 144개의 SM(Streaming Multiprocessor)

  • SM당 FP32 CUDA 코어 128개, 전체 GPU당 FP32 CUDA 코어 18432개

  • SM당 4세대 Tensor 코어 4개, 전체 GPU당 576개

  • 6개의 HBM3 또는 HBM2e 스택, 12개의 512비트 메모리 컨트롤러

  • 60MB L2 캐시

  • 4세대 NVLink 및 PCIe Gen 5


보드 폼팩터가 SXM5인 H100 GPU에는 다음 장치가 포함됩니다.

  • GPU당 8개의 GPC, 66개의 TPC, 2개의 SM/TPC, 132개의 SM

  • SM당 FP32 CUDA 코어 128개, GPU당 FP32 CUDA 코어 16896개

  • SM당 4세대 Tensor 코어 4개, GPU당 528개

  • 80GB HBM3, 5개의 HBM3 스택, 10개의 512비트 메모리 컨트롤러

  • 50MB L2 캐시

  • 4세대 NVLink 및 PCIe Gen 5


보드 폼택터가 PCIe Gen 5인 H100 GPU 에는 다음 장치가 포함됩니다.

  • GPU당 GPC 7개 또는 8개, TPC 57개, SM/TPC 2개, SM 114개

  • GPU당 FP32 CUDA 코어 128개/SM, FP32 CUDA 코어 14592개

  • SM당 4개의 4세대 Tensor 코어, GPU당 456개

  • 80GB HBM2e, 5개의 HBM2e 스택, 10개의 512비트 메모리 컨트롤러

  • 50MB L2 캐시

  • 4세대 NVLink 및 PCIe Gen 5


다음 그림은 144개의 SM이 있는 전체 GH100 GPU를 보여줍니다. H100 SXM5 GPU에는 132개의 SM이 있고 PCIe 버전에는 114개의 SM이 있습니다.



이상으로 H100 GPU의 주요 특징을 간략히 알아 보았습니다. 이어지는 포스팅을 통해 상세히 살펴보겠습니다.


조회수 2,331회댓글 0개
bottom of page