단계별로 알아 보는 GPU 가속 기반 데이터센터 구축과 운영

업종과 기업 규모를 떠나 AI가 보편적인 비즈니스 수단이자 전략으로 활용되고 있습니다. 분야 별로 AI로 기업의 경쟁력을 높이는 리더를 보면 한 가지 공통점이 있습니다. 그들이 다루는 AI 모델은 점점 더 커지고 있고, 데이터 세트 역시 방대해 지고 있다는 것입니다. 실제로 2020년 현재 수백만 개의 이미지, 텍스트, 음성, 비디오 데이터 세트를 처리하고, 이를 이용해 트레이닝하는 모델을 주변에서 찾는 것은 어려운 일이 아닙니다. AI 모델 개발과 배포를 비즈니스 속도에 맞추어 잘 하려면? 네, GPU 가속 기반 데이터센터가 필요합니다.


그렇다면 GPU 가속 기반 데이터센터는 어떻게 구축해 운영해야 할까요? AI 워크로드 처리를 위해 마련하는 인프라 구축과 운영 단계를 정리하면 다음 그림과 같습니다. 각 단계에서 이루어지는 작업을 살펴보겠습니다.



1. 인프라 프로비져닝

AI 인프라 구축 워크플로우의 첫 시작은 컴퓨팅, 스토리지, 네트워킹 등 하드웨어 기반을 마련하는 것입니다. 시스템 관리자는 수작업으로 프로비져닝 하기도 하지만 요즘에는 Ansible, Terraform, Foreman 같은 자동화 기반 도구를 활용하는 것이 대세로 자리잡고 있습니다.

2. VM 프로비저닝

서버 가상화는 이제는 상식과도 같습니다. 엔터프라이즈 애플리케이션 중 상당 수가 서버 가상화 환경에서 운영되고 있습니다. AI 인프라 역시 가상화 기술이 유용합니다. 요즘에는 데이터센터 수준의 가상화도 요즘에는 손쉽게 할 수 있습니다. VMware, Red Hat, Nutanix, Citrix, Microsoft 등이 제공하는 솔루션을 이용하면 손쉽게 구현이 가능합니다.

3. 클러스터 설정

트레이닝, 인퍼런싱 등 목적에 따라 클러스터를 구성합니다. 각 클러스터는 쿠버네티스 기반 컨테이너 환경으로 만듭니다. 그리고 오케스트레이션을 위해 OpenShift 등의 관리 플랫폼을 적용합니다. 참고로 NVIDIA A100 시스템으로 클러스터를 구성할 경우 트레이닝, 인퍼런싱 등 용도별로 클러스터를 따로 구축할 필요가 없습니다. MIG 기능을 이용하면 클러스터를 매우 다양한 용도로 손쉽게 활용할 수 있습니다.



4. 애플리케이션 배포 ​ 인프라와 컨테이너 플랫폼 준비를 마쳤다면 다음은 애플리키에션 배포 단계로 넘어 갑니다. 이 단계부터 데이터 과학자, 개발자가 이해관계자로 등장합니다. 운영 팀은 이들에게 VM 또는 컨네이너 환경에 애플리케이션을 쉽고 빠르게 배포할 수 있도록 돕습니다. ​ 5. 앱/인프라 모니터링 ​ 애플리케이션 배포 후 운영 팀은 SLA 준수를 위해 소프트웨어와 하드웨어 환ㄴ경에 대한 성능 모니터링을 합니다. 이를 위해 Prometheus, Zabbix, Datadog, Splunk 등의 도구를 활용합니다. ​ 6. 문제 해결 및 장애 처리 ​ SLA가 충족되지 않으면 운영 팀은 이 문제를 해결합니다.


이상으로 GPU 가속 기반 데이터센터 인프라 구축과 운영 단계를 간단히 살펴 보았습니다. 참고로 요즘에는 이 워크플로우에 클라우드를 넣어 생각해야 합니다.



#Ansible#Terraform#Foreman#Prometheus#Zabbix#Datadog#Splunk#NVIDIA_A100



조회 11회

Contact Us

주소: 서울특별시 중구 퇴계로 286 쌍림빌딩 8/9층 (주)유클릭 AI 사업본부

전화: 02-6320-0121

© 2030 by uDNA & Uclick

  • 블랙 블로거 아이콘