단계별로 알아 보는 GPU 가속 기반 데이터센터 구축과 운영

업종과 기업 규모를 떠나 AI가 보편적인 비즈니스 수단이자 전략으로 활용되고 있습니다. 분야 별로 AI로 기업의 경쟁력을 높이는 리더를 보면 한 가지 공통점이 있습니다. 그들이 다루는 AI 모델은 점점 더 커지고 있고, 데이터 세트 역시 방대해 지고 있다는 것입니다. 실제로 2020년 현재 수백만 개의 이미지, 텍스트, 음성, 비디오 데이터 세트를 처리하고, 이를 이용해 트레이닝하는 모델을 주변에서 찾는 것은 어려운 일이 아닙니다. AI 모델 개발과 배포를 비즈니스 속도에 맞추어 잘 하려면? 네, GPU 가속 기반 데이터센터가 필요합니다.


그렇다면 GPU 가속 기반 데이터센터는 어떻게 구축해 운영해야 할까요? AI 워크로드 처리를 위해 마련하는 인프라 구축과 운영 단계를 정리하면 다음 그림과 같습니다. 각 단계에서 이루어지는 작업을 살펴보겠습니다.



1. 인프라 프로비져닝

AI 인프라 구축 워크플로우의 첫 시작은 컴퓨팅, 스토리지, 네트워킹 등 하드웨어 기반을 마련하는 것입니다. 시스템 관리자는 수작업으로 프로비져닝 하기도 하지만 요즘에는 Ansible, Terraform, Foreman 같은 자동화 기반 도구를 활용하는 것이 대세로 자리잡고 있습니다.