NVIDIA Network Operator를 활용한 쿠버네티스 클러스터 환경의 네트워킹 구성 요소 배포 및 관리 자동화

AI 인프라 구축 및 확장을 고민 중인 조직이라면 언제나 머릿속에 쿠버네티스(Kubernetes)가 있을 것입니다. 네, AI 프로젝트 추진을 위해 고가의 GPU 서버로 클러스터를 구성할 때 대부분의 조직은 데이터 과학자와 개발자의 편의와 자원 효율성 극대화를 위해 컨테이너 환경까지 마련하는 것을 고려합니다.

오픈 소스 중심으로 특정 기술 종속 없이 컨테이너 환경을 잘 구축하면 AI 인프라를 온프레미스, 클라우드, 엣지 컴퓨팅 환경 경계 구분 없이 매우 유연한 통합해 운영할 수 있는 이점을 챙길 수 있습니다. 이런 이유로 쿠버네티스 기술 내제화에 나서는 조직이 늘고 있습니다.


이런 조직을 위해 NVIDIA는 두 가지 종류의 도구를 제공합니다. 하나는 NVIDIA GPU Operator이고 다른 하나는 NVIDIA Network Operator입니다. 이중 이번 포스팅에서는 NVIDIA Network Operator를 알아보겠습니다. 참고로 이들 도구는 대상이 GPU와 네트워크로 다를 뿐 핵심 기능이 똑같습니다. 쿠버네티스 환경에서 자원 배포와 관리를 단순화, 자동화하는 방안을 제시합니다.


NVIDIA는 GPU 리소스 확장에 있어 네트워킹의 중요성을 잘 압니다. 이런 이유로 멜라녹스를 인수한 것이죠. 이후 NVIDIA ConnectX SmartNIC 및 NVIDIA BlueField DPU 등을 선보이면서 처리량이 높고 지연 시간이 짧은 초고속 네트워킹을 통한 GPU 리소스 연결과 확장 방안을 제시하고 있습니다.


NVIDIA Network Operator는 쿠버네티스 환경에서 GPU 간 초고속 네트워킹을 전제로 GPU 자원을 손쉽게 배포할 수 있도록 돕는 도구입니다. NVIDIA Network Operator를 사용하면 수작업을 상당 부분 자동화할 수 있습니다. 드라이버, 라이브러리, 장치 플러그인 등에 대한 신경을 쓸 일이 없습니다.