GPU Operator와 MIG - GPU 서버 클러스터 관리자가 꼽는 참 좋은 조합
GPU 서버 클러스터를 최적으로 활용하기 위해 많은 조직이 쿠버네티스(Kubernetes) 활용에 관심이 많습니다. 고가의 GPU 자원 활용률을 극대화하고, 데이터 과학자나 개발자의 자원 요청을 신속하게 처리할 수 있다는 점에서 쿠버네티스 환경의 매력은 새삼 강조할 필요가 없습니다.
문제는 쿠버네티스 환경을 구축하고 운영하려면 새로 배울 것도 많고 신경쓸 것도 적지 않다는 것입니다. 이런 부담을 덜어 주기 위해 관리자 도구 관련 여러 오픈 소스 프로젝트들이 추진 중이죠. 이 중 많은 관리자들이 눈여겨보는 것이 있습니다. 바로 GPU Operator입니다. 이를 이용하면 쿠버네티스 클러스터에서 GPU 노드 프로비져닝에 필요한 사전 작업을 간소화할 수 있습니다. NVIDIA 드라이버, NVIDIA 컨테이너 툴킷, 쿠버네티스 플러그인, 모니터링 간은 구성 요소를 준비해야 하는데 이들을 컨테이너화하여 간단히 배포하고 관리할 수 있도록 돕습니다.
GPU Operator가 유용한 도구인 이유는 또 있습니다. NGC, NVIDIA EGX 스택, 레드햇 OpenShift의 일부로 통합해 쓰기 좋다는 것입니다. 참고로 OpenShift와 연계의 경우 GPU Operator 버전에 따라 지원 내용에 차이가 있습니다.
GPU Operator 1.6 및 1.7에는 최신 Red Hat OpenShift 4.7 버전에 대한 지원이 포함됩니다.
GPU Operator 1.5는 Red Hat OpenShift 4.6을 지원합니다.
GPU Operator 1.4 및 1.3은 각각 Red Hat OpenShift 4.5 및 4.4를 지원합니다.
한편, 관리자들이 반길 소식이 하나 또 있습니다. GPU Operator 1.7 버전부터 MIG(Multi-Instance GPU)를 공식 지원합니다. MIG의 이점이야 뭐 너무 널리 알려져 있죠. A100 GPU를 최대 7개의 인스턴스로 나누어 사용할 수 있고, A30의 경우 4개의 인스턴스로 분할하여 사용할 수 있습니다. MIG를 많은 관리자가 선호하는 이유는 동일한 GPU 상에서 여러 컨테이너를 올려 작업을 할 경우 일어나는 리소스 경쟁 걱정이 없다는 것입니다. 동일 GPU에서 여러 작업을 해도 컴퓨팅, 메모리 자원 경쟁이 없다 보니 사용자에게 예측 가능한 범위에서 일관성 있는 성능을 보장할 수 있습니다. 관리자와 사용자 모두가 만족하는 MIG를 이제 GPU Operator 1.7부터 사용할 수 있습니다.
GPU Operator 1.7에는 MIG 모드 및 MIG 구성 변경을 관리하는 쿠버네티스용 NVIDIA MIG Manager라는 새로운 요소가 추가되었습니다. 이에 따라 관리자는 레이블을 추가해 노드에 MIG 구성을 적용할 수 있습니다.

#GPU_Operator #NVIDIA #OpenShfit #RedHat #NVIDIA_MIG #MIG #GPU #GPU_클러스터_컨테이너_쿠버네티스