최근 열린 GTC 2022에서 주목할 만한 소식을 추려 포스팅 시리즈로 진행해 보려 합니다. 첫 번째 소식은 NVIDIA Base Command와 DGX BasePOD 레퍼런스 아키텍처에 대한 내용입니다.
NVIDIA Base Command
GPU 기반 AI 클러스터 관리가 고민이다? 아마 많은 조직이 공감할 것입니다. AI 인프라는 비즈니스 가치만 높지 않습니다. 큰 비용이 들어가다 보니 자원의 가치도 높습니다. 이처럼 고가의 장비를 효율적으로 사용하는 것은 그 무엇보다 중요한 운영 목표입니다. 관련해 잡 스케줄러, MLOps 등 다양한 도구 도입을 검토 또는 사용하는 곳도 많죠. 다양한 도구와 기술로 관리 체계를 세우는 것은 막상 도전해 보면 쉽지 않습니다. 이런 고민을 풀기 위해 NVIDIA가 나서고 있습니다. 네, 소개할 NVIDIA Base Command입니다. 엔터프라이즈 AI 클러스터 관리를 간소화하고자 만든 플랫폼이라 이해하면 됩니다. 원래 이 플랫폼은 온프레미스를 지원하지 않았습니다. 그러던 것이 이번 GTC 2022에서 온프레미스 지원이 발표되었습니다.
또한, NVIDIA Base Command와 NVIDIA AI Enterprise 소프트웨어와 통합도 발표되었습니다. AI 및 데이터 과학 도구, 최적화된 프레임워크 및 사전 훈련된 모델을 AI 관리 플랫폼상에서 더 편리 활용할 수 있게 된 것이죠.
이 밖에도 DGX 인증 솔루션과 더 긴밀히 통합된다고 합니다. 참고로 NVIDIA Base Command는 잡 스케줄러나 MLOps 같은 관리 도구를 대체하는 플랫폼이 아닙니다. 인프라 관리를 자원 오케스트레이선, 모니터링 등 관리 기반이라 봐야 합니다. 이 기반 위에서 NVIDIA AI Enterprise 소프트웨어와 DGX 인증 솔루션을 활용해 AI 프로젝트를 가속하는 것이 NVIDIA의 바람이라고 볼 수 있겠네요. 발표를 보니 Domino Data Lab, Run.ai, Weights & Biases 및 다양한 MLOps 도구를 이제 NVIDIA Base Command와 연계해 더 편히 쓸 수 있게 된 것 같네요.
DGX BasePOD 레퍼런스 아키텍처
경험을 바탕으로 구축하십시오! NVIDIA가 말하는 DGX BasePOD의 활용 방안입니다. DGX BasePOD는 NVIDIA DGX SATURNV 등 NVIDIA가 쌓은 대규모 AI 인프라 구축 경험을 담은 레퍼런스 아키텍처입니다. 이를 참조하면 NVIDIA DGX를 기반으로 컴퓨팅, 네트워킹, 스토리지, 소프트웨어를 검증된 방식으로 통합 설계를 할 수 있습니다. 네, 시행착오를 줄일 수 있는 확실한 방법이라 할 수 있습니다. NVIDIA는 발 빠르게 DNN, Dell, NetApp, Vast Data, Pure Storage, WEKA 등의 파트너와 DGX BasePOD 관련 협력을 강화하고 있습니다. 따라서 거대 AI 인프라를 마치 단일 시스템 도입하듯이 구축하는 것이 가능해 질 것으로 보입니다.
보너스 소식! DGX H100
반가운 소식도 있었는데요, 올 초 공개한 DGX H100을 이제 구매할 수 있다고 하네요. FP8 정밀도에서 32페타플롭의 성능을 제공하는 NVIDIA DGX H100은 엔터프라이즈 AI 개발을 위한 비약적인 효율성을 제공합니다. 이전 세대보다 3배 더 낮은 총소유 비용과 3.5배 더 높은 에너지 효율성을 제공합니다. DGX H100을 기다려 왔다면, 유클릭이 도움 드리겠습니다.
Comentarios