Chang Sun Park
- 2020년 9월 28일
- 2분 분량

GPU 가속 기반 인프라 프로비져닝을 위한 팁

GPU 가속 인프라를 쉽고 빠르게 구축하는 길은 무엇일까요? 바로 NVIDIA가 제시하는 레퍼런스 아키텍처를 따르는 것입니다. NVIDIA는 DGX POD를 통해 컴퓨팅, 네트워킹, 스토리지 통합 아키텍처를 제시합니다. 이를 따르면 인프라 구축과 운영에 있어 가장 난이도가 높은 성능 최적화에 따로 시간과 비용을 들일 필요가 없습니다. NVIDIA DGX POD을 이용해 비즈니스 요구 사항과 목표에 맞는 인프라를 구축하고 한다면 NVIDIA Elite 파트너인 유클릭과 같은 전문가 집단의 도움을 받을 수 있습니다. 이외에 NVIDIA의 레퍼런스 아키텍처를 참조한 OEM 시스템을 도입하는 것도 검증된 방식으로 AI 인프라를 구축하는 방법 중 하나입니다.

성능, 안정성 등이 사전에 검증된 형태로 제공되는 통합 아키텍처 기반 AI Ready 시스템으로 구축한 인프라 프로비져닝을 위해 운영 팀은 다양한 도구를 검토할 수 있습니다. 보통 Ansible, Foreman, Terraform 같은 오픈 소스 도구를 검토하는 것이 일반적입니다. 이외에 Bright Computing의 Bright Cluster Manager 같은 상용 툴을 쓰는 것도 방법입니다. 많이들 살펴보는 오픈 소스 도구 사용은 장단점이 분명합니다.

장점은 오픈 소스 도구의 일반적인 특징인 빠른 발전 속도와 호환과 연계의 편의성을 꼽을 수 있습니다. 단점은 상용 도구처럼 지원의 주체가 명확하지 않다 보니 스스로 해결해야 하는 것이 너무 많다는 것입니다. 이런 이유로 오픈 소스를 제대로 쓰려면 기술 내재화가 필요하다고 말합니다.

NVIDIA는 오픈 소스의 이점을 취하는 가운데 내재화를 조금 더 쉽게 접근할 수 있도록 DeepOps를 개발해 오픈 소스로 공개했습니다. 이를 이용하면 자동화 기반으로 GPU 자원 프로비져닝 체계를 구현할 수 있습니다. 그 대상은 온프레미스뿐 아니라 공용 클라우드까지 매우 폭넓습니다. 참고로 DeepOps는 GPU 클러스터 관리에 최적화된 Ansible 모듈의 묶음이라 보면 됩니다.

프로비져닝 자동화 도구와 함께 사용하면 시너지를 내는 기능이 하나 있습니다. 바로 NVDIA A100 시스템에 지공하는 MIG(Multi-Instance GPU) 기능을 이용하는 것입니다. 이를 이용하면 단일 시스템 또는 클러스터 내 A100 GPU 자원을 여러 데이터 과학자와 개발자에게 더 효율적으로 할당할 수 있습니다. 단일 A100은 최대 7개 GPU 인스턴스로 분할할 수 있습니다. 각 인스턴스는 완벽히 격리된 시스템 환경을 제공합니다. 컴퓨팅, 메모리, L2 캐시, 메모리 대역폭이 완벽히 격리된 조건으로 할당되어 제공됩니다. MIG는 워크로드 요구 사항에 따라 적절한 크기로 GPU를 할당할 수도 있습니다. 같은 크기로 획일적으로 분할하는 것이 아니라 필요에 맞게 인스턴스 성능을 잡을 수 있다는 것입니다.

운영 측면에서 볼 때 MIG의 강점은 쿠버네티스 플러그인을 지원하는 것입니다. 즉, 데이터 과학자와 개발자가 트레이닝이나 인퍼런싱을 위한 시스템을 요구할 때 컨테이너 단위로 개발 환경을 신속하게 제공할 수 있습니다. 한편 MIG는 하이퍼바이저도 지원합니다. 서버 가상화 환경에 VM 단위로 사용자가 요구한 환경을 프로비져닝할 수도 있습니다.

이상으로 GPU 서버로 구축한 클러스터 자원 프로비져닝에 대한 몇 가지 팁을 알아보았습니다. 정리하자면 검증된 레퍼런스 아키텍처 기반으로 클러스터를 구성해 AI Ready Datacenter의 초석을 다지고, 서버 가상화 및 컨테이너 환경을 마련하고, 전략을 이 위에서 자동화 기반의 프로비져닝 도구를 적극적으로 활용해야 한다는 것입니다.

#유클릭 #Multi_Instance _GPU #NVIDIA #쿠버네티스 #컨테이너 #하이퍼바이저 #DGX_A100 #DGX_POD #DeepOps #Ansible #Terraform

GPU 가속 기반 인프라 프로비져닝을 위한 팁

최근 게시물