Chang Sun Park
- 2019년 12월 2일
- 2분 분량

AI 기반 서비스를 위한 최적의 자원 활용법은? 결국 하이브리드인가?

미국 덴버에서 열린 수퍼컴퓨팅 2019 행사에서 NVIDIA는 새로운 유형의 GPU 가속 기반 수퍼컴퓨터를 마이크로소프트 애저 상에서 이용할 수 있다고 발표했습니다. 고성능 컴퓨팅 관련 클라우드 수요를 겨냥한 전략으로 보이는데요, 이번 발표에 따라 애저의 새로운 NDv2 인터스터 상에서 복잡한 AI 서비스, 강력한 컴퓨팅 파워를 요구하는 HPC 워크로드를 운영할 수 있게 되었습니다. 참고로 애저 NDv2 인스턴스는 클라우드 상에 구축하는 초강력 수퍼컴퓨터입니다. NVIDIA V100 Tensor Core GPU를 최대 800개까지 구성할 수 있으며, 이들 환경은 맬라녹스 인피니밴드로 묶입니다.

이 서비스를 이용하면 복잡한 AI 모델 서빙을 위한 수퍼컴퓨팅 환경을 몇 시간 만에 구성할 수 있습니다. 편의성이 높은 만큼 비용 역시 상당할 것 같긴 합니다.

AI, HPC도 결국 하이브리드가 답인가?

AWS, GCP, 애저 등 시장을 선도하는 클라우드 사업자는 AI, HPC 관련 시장을 겨냥한 서비스를 지속해서 선보이고 있습니다. 인프라 측면에서 보면 클라우드 사업자의 서비스는 매우 신중하게 선택해야 합니다. NVIDIA의 최신 GPU나 구글 TPU 기반 인스턴스를 아무 생각 없이 쓰다가는 감당할 수 없는 수준으로 비용이 발생하기 쉽습니다. 그렇다면 어떤 방식으로 클라우드를 바라보는 것이 현명할까요? 스타트업들의 이용 방식에서 그 힌트를 찾을 수 있지 않을까요?

AI 서비스 기업, 특히 스타트업은 클라우드를 사업 기반으로 삼는 것이 일반적입니다. AI 모델 개발과 최적화, 경량화 작업은 주로 온프레미스 환경에서 DGX 서버 같은 강력한 머신을 이용해 합니다. 그리고 모델 서빙과 인퍼런싱의 경우 클라우드를 이용하는데요, 이때 CPU와 GPU 자원을 적절히 사용하는 식으로 경비를 절감합니다.

하이브리드 방식으로 GPU 인프라를 운영할 때 기술적으로 가상화와 잡 스케줄링 그리고 머신러닝, 딥러닝 프로젝트 관리 플랫폼을 살펴봐야 합니다. 관련해 유클릭은 딥러닝 관리 플랫폼인 Valohai, GPU 가상화 솔루션, GPU잡 스케줄러 등 다양한 솔루션을 제공합니다. 관련해 도움이 필요하면 현재 무료 컨설팅을 진행 중이니 유클릭으로 문의 바랍니다.

AI, HPC도 결국 하이브리드가 답인가?

AI 기반 서비스를 위한 최적의 자원 활용법은? 결국 하이브리드인가?

최근 게시물