AI 인프라 운영 팀의 중요 업무 중 하나는 모니터링입니다. GPU 가속 기반 클러스터 환경에 대한 모니터링은 크게 소프트웨어와 하드웨어 두 측면에서 이루어집니다. 운영 팀에게는 AI 워크로드 처리 속도에 대한 성능 관련 SLA를 충족해야 합니다. 또한, 하드웨어 성능 병목 현상이나 장애로 인한 지연을 최소화하는 것도 중요 SLA입니다. 그렇다면 모니터링을 통해 무엇을 살펴야 할까요? 크게 다음과 같은 지표가 있습니다. 이들 항목 모니터링을 통해 운영 팀은 데이터 과학자와 개발자에게 중요한 지표인 인퍼런싱 대기 시간과 모델 쓰루풋을 적절히 관리할 수 있습니다.
NVIDIA는 GPU 가속 기반 인프라 모니터링을 돕기 위해 DCGM이라는 도구를 제공합니다. 이를 사용하면 앞서 설명한 주요 모니터링 지표를 효과적으로 측정할 수 있습니다. DCGM은 주요 GPU 메트릭을 정기적으로 수집합니다. 그리고 워크로드 실행 전후 GPU 동작 정보를 참조해 GPU 상태를 평가합니다. 이외에 하드웨어 오류를 잡기 위해 진단을 실행할 수도 있습니다. 예측 가능한 성능 보장을 위해 전력 임계값 및 클럭 설정도 지원합니다.
DCGM은 GPU 서버에서 수백 가지가 넘는 항목을 측정합니다. 이렇게 측정한 정보는 Prometheus, collectd, Telegraf 같은 메트릭 수집 도구로 보낼 수 있습니다. 그리고 Grafana 같은 도구를 이용해 대시보드 형태로 시각화하여 볼 수도 있습니다.
정리하자면 DCGM을 이용해 모니터링을 하면 GPU 클러스터의 성능과 자원 활용률을 극대화하고, 예기지 않은 장애로 인한 시스템 중단 시간을 최소화할 수 있습니다.
#NVIDIA_DataCenter_GPU_Manager # Prometheus #Kubernetes #collectd #Telegraf #Grafana
Comments