top of page

NVIDIA Network Operator를 활용한 쿠버네티스 클러스터 환경의 네트워킹 구성 요소 배포 및 관리 자동화

AI 인프라 구축 및 확장을 고민 중인 조직이라면 언제나 머릿속에 쿠버네티스(Kubernetes)가 있을 것입니다. 네, AI 프로젝트 추진을 위해 고가의 GPU 서버로 클러스터를 구성할 때 대부분의 조직은 데이터 과학자와 개발자의 편의와 자원 효율성 극대화를 위해 컨테이너 환경까지 마련하는 것을 고려합니다.

오픈 소스 중심으로 특정 기술 종속 없이 컨테이너 환경을 잘 구축하면 AI 인프라를 온프레미스, 클라우드, 엣지 컴퓨팅 환경 경계 구분 없이 매우 유연한 통합해 운영할 수 있는 이점을 챙길 수 있습니다. 이런 이유로 쿠버네티스 기술 내제화에 나서는 조직이 늘고 있습니다.


이런 조직을 위해 NVIDIA는 두 가지 종류의 도구를 제공합니다. 하나는 NVIDIA GPU Operator이고 다른 하나는 NVIDIA Network Operator입니다. 이중 이번 포스팅에서는 NVIDIA Network Operator를 알아보겠습니다. 참고로 이들 도구는 대상이 GPU와 네트워크로 다를 뿐 핵심 기능이 똑같습니다. 쿠버네티스 환경에서 자원 배포와 관리를 단순화, 자동화하는 방안을 제시합니다.


NVIDIA는 GPU 리소스 확장에 있어 네트워킹의 중요성을 잘 압니다. 이런 이유로 멜라녹스를 인수한 것이죠. 이후 NVIDIA ConnectX SmartNIC 및 NVIDIA BlueField DPU 등을 선보이면서 처리량이 높고 지연 시간이 짧은 초고속 네트워킹을 통한 GPU 리소스 연결과 확장 방안을 제시하고 있습니다.


NVIDIA Network Operator는 쿠버네티스 환경에서 GPU 간 초고속 네트워킹을 전제로 GPU 자원을 손쉽게 배포할 수 있도록 돕는 도구입니다. NVIDIA Network Operator를 사용하면 수작업을 상당 부분 자동화할 수 있습니다. 드라이버, 라이브러리, 장치 플러그인 등에 대한 신경을 쓸 일이 없습니다.


NVIDIA Network Operator의 핵심 기술은 GPUDirect RDMA입니다. 이 기술을 이용하면 GPU 노드 간 직접 통신이 이루어집니다. CPU를 거치지 않음으로 빠른 연결이 가능하죠.


NVIDIA Network Operator는 NGC 또는 깃허브 페이지에서 받아 사용할 수 있습니다.

사실 NVIDIA Network Operator는 단독으로 사용하는 도구라기보다 NVIDIA GPU Operator와 함께 짝을 이룬다고 봐야 합니다. 두 도구를 함께 사용하면 쿠버네티스 환경에서 GPU 자원 배포와 네트워킹 작업을 자동화 기반으로 간소화할 수 있습니다. 이를 도식화하면 다음 그림과 같습니다. NVIDIA EGX 기반의 인증 시스템을 데이터센터나 엣지 컴퓨팅 환경에서 사용하고 있다면 NVIDIA Network Operator와 NVIDIA GPU Operator를 이용해 쿠버네티스 환경을 대상으로 GPU와 네트워킹 자원을 손쉽게 배포하고 관리할 수 있습니다.



정리하자면 NVIDIA Network Operator와 NVIDIA GPU Operator를 사용하면 쿠버네티스 기반 스케일 아웃 AI 클러스터 구축과 운영의 복잡함을 줄일 수 있습니다.



조회수 218회댓글 0개

Comments


bottom of page