NVIDIA GPU Operator 1.9 소식

2022년 IT 인프라 투자 계획에서 GPU 클러스터 구축 및 확장이 빠진 조직이 없을 것입니다. AI 이니셔티브가 최우선 과제인 조직이 빠르게 늘고 있죠. 관련해 이번 포스팅에서는 늘어만 가는 GPU 인프라 관리 효율성을 높이는 데 도움이 되는 도구인 GPU Operator 최신 버전 소식을 정리해 보았습니다.

GPU Operator란?


NVIDIA GPU Operator를 사용하면 쿠버네티스 환경에서 NVIDIA GPU를 손쉽게 배포할 수 있습니다. 따라서 인프라 팀은 GPU 배포와 관리 작업을 간소화할 수 있습니다. 확장 요구에도 유연하게 대응할 수 있습니다. GPU Operator의 최신 버전은 1.9입니다.


최신 버전의 개선 사항

GPU Operator 1.9에 포함된 새로운 기능은 다음과 같습니다.


  • NVIDIA 데이터센터 GPU 드라이버 버전 470.82.01 지원

  • DGX OS 5.1+와 함께 DGX A100 지원

  • MIG Manager와 함께 사전 설치된 GPU 드라이버 지원

  • GPU 드라이버를 빌드하기 위해 활성 Red Hat OpenShift 자격을 유지하기 위해 종속성을 제거

  • Mellanox OFED 드라이버가 사전 설치된 GPUDirect RDMA 지원

  • Red Hat OpenShift Lifecycle Manager(OLM)를 사용한 GPU 연산자 및 피연산자 업그레이드 지원

  • NVIDIA 가상 컴퓨팅 서버 13.1(vGPU) 지원

이들 기능이 추가되면서 NVIDIA의 A100, NVSwitch 같은 최신 시스템을 더욱 효율적으로 활용할 수 있는 길을 열었습니다.


예를 들어 1.9버전을 적용하면 NVSwitch를 초기화하는 데 필요한 소프트웨어를 자동으로 배포할 수 있습니다. 이를 통해 모든 GPU가 NVLink 대역폭을 활용해 서로 통신하는 컴퓨팅 플랫폼을 더손 손쉽게 구성할 수 있게 되었습니다. 다음으로 MIG 자동 구성에 A100 자원까지 포함시킬 수 있게 되었습니다.


다음으로 1.9 버전에서 눈에 들어오는 것으로 설치 프로세스 간소화가 있습니다. 이전 버전의 GPU Operator에서 OpenShift와 함께 GPU Operator를 사용하는 조직은 GPU Operator를 성공적으로 사용하기 위해 Red Hat의 추가 권한을 적용해야 했습니다. 따라서 자격 키가 만료되면 사용자는 워크플로가 중단되지 않도록 키를 다시 적용해야 헀습니다. GPU Operator 1.9는 이제 OpenShift용 entitlement-free driver 컨테이너를 지원합니다. 이는 NVIDIA 커널 모듈을 빌드하기 위해 사전 설치된 필수 커널 패키지와 함께 RedHat에서 제공 하는 Driver-Toolkit 이미지 를 활용하여 수행됩니다 . 사용자는 더 이상 RHEL 구독이 있는 유효한 인증서가 GPU Operator 실행에 항상 적용되는지 확인할 필요가 없습니다.

또한, 버전 1.9에는 MIG Manager와 함께 사전 설치된 드라이버 지원, GPUDirect RDMA를 사용하기 위해 사전 설치된 MOFED 지원, 컨테이너 런타임 자동 감지 및 NOUVEAU 자동 비활성화가 포함되어 있습니다. 따라서 데이터 과학자와 개발자에게 더 빨리 컨테이너 환경을 제공할 수 있게 되었습니다.


이상으로 GPU Operator 1.9 버전에 대해 알아보았습니다. 더 자세한 내용은 릴리즈 노트를 참조 바랍니다.


#NVIDIA #GPU #GPU_Operator #OpenShift #A100 #MIG



조회수 75회