GPU 가속 기반 인프라 프로비져닝을 위한 팁

GPU 가속 인프라를 쉽고 빠르게 구축하는 길은 무엇일까요? 바로 NVIDIA가 제시하는 레퍼런스 아키텍처를 따르는 것입니다. NVIDIA는 DGX POD를 통해 컴퓨팅, 네트워킹, 스토리지 통합 아키텍처를 제시합니다. 이를 따르면 인프라 구축과 운영에 있어 가장 난이도가 높은 성능 최적화에 따로 시간과 비용을 들일 필요가 없습니다. ​ NVIDIA DGX POD을 이용해 비즈니스 요구 사항과 목표에 맞는 인프라를 구축하고 한다면 NVIDIA Elite 파트너인 유클릭과 같은 전문가 집단의 도움을 받을 수 있습니다. 이외에 NVIDIA의 레퍼런스 아키텍처를 참조한 OEM 시스템을 도입하는 것도 검증된 방식으로 AI 인프라를 구축하는 방법 중 하나입니다.


성능, 안정성 등이 사전에 검증된 형태로 제공되는 통합 아키텍처 기반 AI Ready 시스템으로 구축한 인프라 프로비져닝을 위해 운영 팀은 다양한 도구를 검토할 수 있습니다. 보통 Ansible, Foreman, Terraform 같은 오픈 소스 도구를 검토하는 것이 일반적입니다. 이외에 Bright Computing의 Bright Cluster Manager 같은 상용 툴을 쓰는 것도 방법입니다. 많이들 살펴보는 오픈 소스 도구 사용은 장단점이 분명합니다.

장점은 오픈 소스 도구의 일반적인 특징인 빠른 발전 속도와 호환과 연계의 편의성을 꼽을 수 있습니다. 단점은 상용 도구처럼 지원의 주체가 명확하지 않다 보니 스스로 해결해야 하는 것이 너무 많다는 것입니다. 이런 이유로 오픈 소스를 제대로 쓰려면 기술 내재화가 필요하다고 말합니다.

NVIDIA는 오픈 소스의 이점을 취하는 가운데 내재화를 조금 더 쉽게 접근할 수 있도록 DeepOps를 개발해 오픈 소스로 공개했습니다. 이를 이용하면 자동화 기반으로 GPU 자원 프로비져닝 체계를 구현할 수 있습니다. 그 대상은 온프레미스뿐 아니라 공용 클라우드까지 매우 폭넓습니다. 참고로 DeepOps는 GPU 클러스터 관리에 최적화된 Ansible 모듈의 묶음이라 보면 됩니다.