미국 에너지성 산하 연구소가 NVIDIA DGX-2를 쓰는 이유 - 연구원이 더 편하게 머신 러닝을 할 수 있게 돕는 동시에 수퍼컴퓨터 자원을 더 효율적으로 쓰기 위해..

미국 에너지성(The U.S. Department of Energy) 산하 연구소 중 하나인 오크리지 국립 연구소(ORNL: Oak Ridge National Laboratory)이 최근 NVIDIA DGX-2 시스템을 도입했습니다. 그 이유는 머신 러닝 관련 작업을 위해서입니다.



관련해 앞으로 DGX-2를 어떻게 사용할지 연구원들의 기대가 큰가 봅니다. 관련해 블로그 포스트까지 친절하게 올렸네요. 참고로 ORNL은 세계 최고 수준의 수퍼컴퓨터를 보유한 기관입니다. 이 수퍼컴퓨터에는 2만 7,648개의 NVIDIA Tensor Core V100 GPU가 장착되어 있습니다.

이번에 DGX-2를 도입한 이유는 200페타플롭스(Petaflops)의 무시무시한 성능을 자랑하는 연구소 수퍼컴퓨터를 사용하기 전에 연구원들이 부담 없이(?) 진행 중인 프로젝트를 돌려볼 수 있도록 하기 위함입니다. 연구원들을 위한 특별한 배려로 보이네요. 프로젝트 초기에는 이런저런 시행착오가 많죠. 이를 수퍼컴퓨터에 올려 돌려 보기에는 여러모로 불편하고 부담스럽습니다. 알고리즘을 짠 다음 충분히 검증해 가며 완성도를 높인 다음 수퍼컴퓨터에 올린다면 한결 마음이 가볍겠죠. 네, 이런 이유로 연구원들의 편의를 위해 ORNL에서 DGX-2를 도입한 것입니다.

연구소 측면에서 봐도 DGX-2는 매우 유용합니다. 수퍼컴퓨터는 아무리 최강 성능을 보여준다 해도 연구원들이 공유해야 하는 한정된 자원입니다. DGX-2와 같이 수퍼컴퓨터 못지않은 성능을 보여주는 환경을 프로젝트 초기에 마음껏 이용할 수 있게 한다는 것은? 거꾸로 보면 수퍼컴퓨터라는 중요한 자원을 더 잘 활용하는 좋은 방법입니다.

머신 러닝과 데이터 과학자들이 프로젝트 초반에 마치 개인 머신처럼 자유롭게 활용할 수 있는 환경을 마련하는 것이 어떤 의미와 효과를 제공하는지 보여주는 좋은 사례 같아 포스팅 올려 봤습니다.

#NVIDIA #GPU #수퍼컴퓨터 #DGX2 #머신러닝 #개발 #에너지 #연구소

조회 24회