NVIDIA GPU Operator 1.9 소식

2022년 IT 인프라 투자 계획에서 GPU 클러스터 구축 및 확장이 빠진 조직이 없을 것입니다. AI 이니셔티브가 최우선 과제인 조직이 빠르게 늘고 있죠. 관련해 이번 포스팅에서는 늘어만 가는 GPU 인프라 관리 효율성을 높이는 데 도움이 되는 도구인 GPU Operator 최신 버전 소식을 정리해 보았습니다.

GPU Operator란?


NVIDIA GPU Operator를 사용하면 쿠버네티스 환경에서 NVIDIA GPU를 손쉽게 배포할 수 있습니다. 따라서 인프라 팀은 GPU 배포와 관리 작업을 간소화할 수 있습니다. 확장 요구에도 유연하게 대응할 수 있습니다. GPU Operator의 최신 버전은 1.9입니다.


최신 버전의 개선 사항

GPU Operator 1.9에 포함된 새로운 기능은 다음과 같습니다.


  • NVIDIA 데이터센터 GPU 드라이버 버전 470.82.01 지원

  • DGX OS 5.1+와 함께 DGX A100 지원

  • MIG Manager와 함께 사전 설치된 GPU 드라이버 지원

  • GPU 드라이버를 빌드하기 위해 활성 Red Hat OpenShift 자격을 유지하기 위해 종속성을 제거

  • Mellanox OFED 드라이버가 사전 설치된 GPUDirect RDMA 지원

  • Red Hat OpenShift Lifecycle Manager(OLM)를 사용한 GPU 연산자 및 피연산자 업그레이드 지원

  • NVIDIA 가상 컴퓨팅 서