그린 AI 데이터센터 구축을 위한 팁
최종 수정일: 2021년 2월 1일
데이터센터는 한정된 자원입니다. 전력, 공조 등 기반 시설과 공간을 채울 수 있는 서버와 각종 장비의 수도 정해져 있습니다. 그렇다면 이 시설을 어떻게 운영해야 ‘그린(Green)’ 데이터센터로 경제성과 효율성 모두를 인정받을 수 있을까요?
지금 당장 실천 가능한 것이 있습니다. 바로 서버 집적도를 낮추는 것입니다. 엄청난 숫자의 서버 수를 크게 줄일 수 있다면? 상면 공간의 여유가 생기고 관련해 인프라 비용을 줄일 수 있습니다.
1,000대와 1대의 서버가 똑같은 성능은 낸다면?
예를 하나 들어보겠습니다. 5페타플롭스 성능을 내는 AI 클러스터를 예로 들어 보겠습니다. 이정도 성능을 x86 서버로 내려면 1천 개 이상의 노드가 필요합니다. 이를 전력 측면에서 보면 0.01페타플롭스를 내기 위해 1킬로와트가 필요합니다. 이번에는 DGX-1으로 구성해보습니다. 총 5대의 DGX-1만 있으면 5페타플롭스 성능이 나옵니다. 전력은 0.29페타플롭스당 1킬로와트를 씁니다. 이 두 개만 비교해 봐도 상면은 1천 노드가 5개 노드로 줄어 비교 불가 수준의 차이가 납니다. 킬로와트당 성능도 30배 가까운 차이가 납니다. 최신 시스템인 DGX A100을 적용하면 더 큰 차이가 납니다. 1천 대 x86 서버의 성능은 1대의 DGX A100으로 충분합니다. 킬로와트당 성능은 0.77페타플롭스/킬로와트 수준으로 효율이 더 높아집니다.

정리하자면 DGX A100으로 AI 데이터센터를 구축하면 더 적은 상면 공간에 더 큰 에너지 효율을 얻을 수 있습니다.
DGX A100를 이용한 집적도 개선
DGX A100을 이용하면 데이터센터 집적도를 크게 높일 수 있습니다. 이 시스템을 활용하는 방법은 랙당 전력 소비량을 기준으로 구분해 볼 수 있습니다. 보통 레거시 환경이 랙당 10킬로와트 이하의 전력을 씁니다. 이처럼 랙당 10킬로와트 이하의 전력을 쓸 수 있다면? 랙당 한 대의 DGX A100을 설치하는 것이 효과적입니다. 전통적인 AI/HPC 환경은 랙당 15킬로와트 정도를 씁니다. 이 경우 랙 하나에 DGX A100을 설치하는 것을 고려해 볼 수 있습니다. 다음으로 랙당 28킬로와트를 쓸 수 있는 환경에서는 DGX A100을 집적도 높게 구성할 수 있습니다. 랙 두 개에 DGX A100 8대를 설치했다고 가정해 보면, 앞서 예로 든 바와 같이 x86 서버 노드 수가 8천 개에 달하는 대형 클러스터와 맞먹는 성능이 나옵니다.

다음은 실제 DGX A100 설치 현장입니다. 연구소나 기업 데이터센터의 랙과 크게 다른 모습이 아니죠. 하지만 그 성능은 어마어마하게 차이가 납니다. 공간을 차지하지 않으면서도, 다음 사진들에 나온 DGX A100을 장착한 랙들은 슈퍼컴퓨터 인프라 역할을 톡톡히 할 수 있습니다.
