주소: 서울특별시 중구 퇴계로 286 쌍림빌딩 8/9층 (주)유클릭 디지털 트랜스포메이션 사업본부

전화: 02-6320-0121

© 2030 by uDNA & Uclick

DGX-2는 여러 개의 GPU 자원을 마치 하나의 GPU처럼 사용할 수 있는 시대를 예고합니다. 분산 컴퓨팅의 개념을 현대적으로 재해석하는 것인데요, 이게 가능한 핵심은 바로 네트워킹 기술입니다. DGX-2는 Tesla 16개가 장착되어 있습니다. 이를 통해 작은 서버 한대로 페타플롭스급 성능을 제공합니다. 전통적인 방식으로 이 정도 성능을 확보하려면 300대 서버 클러스터를 구축해야 했습니다. DGX-2를 배치하면 1/60에 불과한 작은 공간에 서버 한대 놓고 같은 성능을 뽑아낼 수 있습니다.

300대와 1대의 차이는 생각 이상으로 큽니다. 눈에 띄는 공간만 주는 것이 아닙니다. 데이터센터에서 상면 공간이 줄어든다는 것은 공조에 필요한 에너지도 그 만큼 적게 들어감을 뜻합니다. 300대의 서버가 내뿜는 열기를 식히는 것과 1대의 서버를 위해 공조 설비를 돌리는 것의 차이는 에너지 효율 측면에서 비교 불가입니다. 다음 그림은 퓨어스토리지의 발표 자료에서 발췌한 것으로, 공간 효율의 차이를 직관적으로 느껴 보시라고 인용해 봅니다. 

 

운영 효율화 측면에서 봐도 300대와 1대의 차이는 큽니다. 300대의 서버는 관리자의 눈에 관리 포인트 300개로 보입니다. 반면에 DGX-2를 들여다 놓으면 관리 대상은 1개가 됩니다. 300대의 서버에 일일이 관리 에이전트 깔아, 중앙에서 모니터링하면서, 이상 징후가 보이면 랙 앞에 가서 뭔가 대응을 해야 합니다. 관리자 또는 인프라 팀이 해야 할 일이 많은 이유입니다. 

2배 커진 메모리와 NVSwitch 기술

300대보다 여러 면에서 나은 1대의 서버가 탄생할 수 있게된 배경에는 2배 커진 메모리와 NVSwitch 기술이 자리하고 있습니다. 먼저 DGX-2에는 32GB 메모리를 내장한 Tesla GPU가 적용됩니다. 이전 세대보다 내장 메모리 용량이 2배 커졌습니다. 따라서 메모리 집약적인 딥러닝, 머신 러닝, HPC 워크로드 처리를 더욱 여유 있게 합니다. 

​비즈니스 요구에 맞춰 확장

2배 커진 메모리와 함께 DGX-2의 막강한 성능의 비결로 꼽히는 NVSwitch는 16개의 GPU 자원을 마치 하나의 GPU처럼 동작하게 만드는 혁신적인 네트워크 패브릭 기술입니다. NVSwitch는 PICe와 비교할 때 5대 더 넓은 대역폭을 제공합니다. NVSwitch 기술을 기반으로 하는 NVIDIA의 NVLink가 DGX-2에 적용되어 있는데요, 이 덕에 V100 GPU 간 통신 속도는 300GBps에 달합니다. 따라서 NVLink를 이용해 GPU 자원을 연결하면 여러 GPU가 마치 하나처럼 움직이게 만들 수 있습니다. 각 GPU에 장착된 고대역폭 메모리(HIgh Bandwidth Memory) 역시 거대한 단일 자원풀이 됩니다. 이에 따라 GPU에 내장된 GPC(Graphics Processing Clouster)가 모든 고대역폭 메모리 자원에 접근할 수 있습니다. 이런 이유로 아래 오른쪽 그림처럼 거대한 단일 자원처럼 여러 GPU가 연결되어 동작한다고 말하는 것입니다. 

 

네트워크 측면에서 패브릭을 단순화해 그려보면 다음과 같습니다. DGX-2에 탑재된 16개의 GPU 클러스터가 완전히 연결된 구조가 나옵니다. 이 그림을 보면 2개의 빌딩 블록이 연결된 것처럼 보이는데요, 이는 서버 아키텍처를 보면 8개의 GPU가 장착된 베이스 보드 2개가 내장된 구조이기 때문입니다. 

  • 블랙 블로거 아이콘