top of page

25일 걸리던 모델 트레이닝 시간을 80초로 단축! AI 분야의 성능 기준을 다시 세운 NVDIIA - MLPerf 벤치마크 최고 성능 기록 경신

AI 관련 데이터 과학자와 개발자는 해가 갈수록 높아지는 AI 플랫폼의 성능에 놀랄 따름입니다. MLPerf 벤치마크 결과가 최근 발표되었는데요, NVIDIA AI 플랫폼이 소프트웨어 최적화를 통해 MLPerf의 6개 워크로드에 걸쳐 평균 40% 이상 높은 성능 결과를 끌어냈습니다. MLPerf은 머신 러닝 분야에서 공신력 높은 벤치마크인데요, 다음과 같은 AI 워크로드를 대상으로 트레이닝 성능을 측정합니다. 이미지 분류, 오브젝트 탐지, 번역, 강화 학습 등 요즘 뜨는 AI 관련 서비스와 애플리케이션에 적용된 머신 러닝 관련 성능을 전반적으로 체크한다고 보면 됩니다.


NVIDIA AI 플랫폼의 성능 개선은 놀라울 정도입니다. 다음 표를 보시죠. 2015년 K80 GPU와 CUDA 조합의 환경에서 25일 걸리던 트레이닝 시간이 2017년 Volta와 Tensor Cores가 적용된 테슬라 GPU 환경으로 바뀌면서 8시간으로 단축됩니다. 여기에 2019년 NVIDIA NVSwitch와 Mallanox InfiniBand로 네트워킹 혁신을 가미한 DGX SuperPOD 환경으로 바뀌면서 8시간이 80초로 줄어듭니다.



DGX SuperPOD, MLPerft 6개 테스트를 20분 안에 완료하는 유일한 AI 플랫폼

이번 테스트에서 주목할 것은 DGX SuperPOD입니다. DGX SuperPOD는 엔터프라이즈 AI 인프라스트럭처의 미래상을 제시합니다. DGX SuperPOD은 엔터프라이즈를 위해 탄생한 인프라스트럭처 솔루션입니다. 여기서 솔루션이란 표현을 하는 이유가 궁금할 것입니다.


  1. DGX SuperPOD은 NVIDIA DGX-2, Mallanox InfiniBand 등 하드웨어가 사전에 최적화된 형태로 구성됩니다.

  2. AI 소프트웨어 역시 운영체제, 드라이버, 컨테이너, 사전에 트레닝도니 모델 및 각종 스크립트 등이 별도의 설치와 설정 없이 바로 사용 가능한 형태로 제공됩니다.


MLPerf 벤치마크 결과를 기준으로 DGX SuperPOD을 쓸 때와 DGX 서버를 단독으로 쓸 때의 성능 차이를 좀 보시죠. 그 차이가 꽤 나는 것을 알 수 있습니다.


이번 MLPerf 벤치마크에서 DGX SuperPOD이 모든 테스트를 20분 안에 마친 유일한 AI 플랫폼이 된 이유를 아시겠죠. 벤치마크 결과에 대한 상세 설명은 NVIDIA 블로그를 참조 바랍니다.


NVIDIA의 AI 플랙폼 접근 전략의 차이는?

2015년부터 2019년까지 로켓과 같이 성능이 향상된 데에는 NVIDIA의 AI 플랫폼 관련 기술 개발과 혁신에 대한 노력이 배경에 깔려 있습니다. NVIDIA는 엣지에서 데이터센터까지 AI 플랫폼의 경계를 확장하는 데 앞장서 왔으며, 개발자 생태계 지원에도 적극적으로 나섰습니다. 그리고 DGX SuperPOD와 같은 새로운 차원의 AI 스트럭처 솔루션도 공개했습니다. 내년에는 어떤 소식으로 데이터 과학자와 AI 개발자를 놀라게 할지 벌써 기대가 되네요.


조회수 69회댓글 0개
bottom of page