AI 기반 서비스를 위한 최적의 자원 활용법은? 결국 하이브리드인가?

미국 덴버에서 열린 수퍼컴퓨팅 2019 행사에서 NVIDIA는 새로운 유형의 GPU 가속 기반 수퍼컴퓨터를 마이크로소프트 애저 상에서 이용할 수 있다고 발표했습니다. 고성능 컴퓨팅 관련 클라우드 수요를 겨냥한 전략으로 보이는데요, 이번 발표에 따라 애저의 새로운 NDv2 인터스터 상에서 복잡한 AI 서비스, 강력한 컴퓨팅 파워를 요구하는 HPC 워크로드를 운영할 수 있게 되었습니다. 참고로 애저 NDv2 인스턴스는 클라우드 상에 구축하는 초강력 수퍼컴퓨터입니다. NVIDIA V100 Tensor Core GPU를 최대 800개까지 구성할 수 있으며, 이들 환경은 맬라녹스 인피니밴드로 묶입니다.



이 서비스를 이용하면 복잡한 AI 모델 서빙을 위한 수퍼컴퓨팅 환경을 몇 시간 만에 구성할 수 있습니다. 편의성이 높은 만큼 비용 역시 상당할 것 같긴 합니다.

AI, HPC도 결국 하이브리드가 답인가?

AWS, GCP, 애저 등 시장을 선도하는 클라우드 사업자는 AI, HPC 관련 시장을 겨냥한 서비스를 지속해서 선보이고 있습니다. 인프라 측면에서 보면 클라우드 사업자의 서비스는 매우 신중하게 선택해야 합니다. NVIDIA의 최신 GPU나 구글 TPU 기반 인스턴스를 아무 생각 없이 쓰다가는 감당할 수 없는 수준으로 비용이 발생하기 쉽습니다. 그렇다면 어떤 방식으로 클라우드를 바라보는 것이 현명할까요? 스타트업들의 이용 방식에서 그 힌트를 찾을 수 있지 않을까요?