top of page

AI 인프라와 플랫폼 구축 시 고려 사항! 시간과 비용을 아끼고 시행착오를 줄이는 방법은?

AI 인프라와 플랫폼 구축을 할 때 많은 기업이 비슷한 고민을 합니다. 보통 시작은 클라우드와 온프레미스에 대한 고민에서 출발합니다. 사실 정답은 없습니다. 필요에 맞는 선택이 있을 뿐입니다. 보통 클라우드는 필요할 때 당장 쓰기 편합니다. 하지만 제약이 있습니다. 데이터 세트가 크거나, 빈번하게 트레이닝을 해야 하는 조건의 경우 경제성이 떨어집니다. 이런 이유로 AI 프로젝트를 다양하게 전개해 나아가는 기업들은 온프레미스에 인프라와 플랫폼을 갖추는 것을 선호합니다. 그리고 순간적인 자원 확장이 필요하거나, 대내외 협업이 필요할 때 클라우드를 이용합니다. 스타트업의 경우 클라우드를 메인으로 쓰는 가운데 빈번한 트레이닝 등의 작업은 사내에 NVIDIA DGX 워크스테이션 같은 전용 장비를 두고 사용하는 조합을 선택하기도 합니다.


AI 인프라/플랫폼 도입을 위한 3가지 고려 사항 - 개발, 성능, TCO


본 포스팅은 온프레미스 환경에 AI 인프라, 플랫폼 구축 시 고려해야 할 주요 사항을 소개합니다. 보통 AI 관련 투자를 할 때 개발 생산성, 확장성과 성능 그리고 TCO를 고려합니다. 데이터 과학자, AI 개발자, 현업 부서 등 여러 AI 프로젝트 추진 추체들이 더 생산적이고 효율적으로 작업을 이어갈 수 있게 하려면 어떤 조건을 충족해야 하나? GPU 자원을 효율적으로 배분해 사용자들이 성능 부족을 호소하지 않게 하려면 무엇이 필요할까? AI 인프라와 플랫폼 구축과 운영 비용 절감 포인트는 무엇인가? 이 세 질문에 대한 답을 찾는 것이 필요합니다.


AI 인프라와 플랫폼 구축에 레퍼런스 아키텍처를 선택하는 이유


AI 인프라와 플랫폼은 여러 요소로 구성됩니다. GPU, CPU, 네트워크, 스토리지 등 하드웨어부터 시작해 운영 체제, 머신 러닝과 딥러닝 관련 소프트웨어 스택, 데이터 과학자와 개발자가 사용하는 각종 개발 환경과 도구까지 꽤 많은 것들이 포함됩니다. 이는 다른 측면에서 보면 직접 AI 인프라와 플랫폼을 구축할 경우 최적화를 위해 최적의 조합을 찾기 위해 무수히 많은 테스트를 해봐야 함을 의미합니다. 이런 시행착오를 줄이기 위해 나온 것이 바로 레퍼런스 아키텍처입니다. 최적의 조합에 대한 가이드는 NVIDIA 그리고 NVIDIA와 협력 관계를 맺고 있는 하드웨어 벤더가 제공을 합니다. 이들이 제공하는 레퍼런스 아키텍처를 따르면 인프라와 플랫폼 구축과 운영 시간과 비용을 절감할 수 있습니다.


DIY로 구축하는 것과 레퍼런스 아키텍처를 따를 때의 극적인 차이


시간과 비용 절감, 다소 추상적으로 들릴 수 있을 것입니다. 하지만 구체적으로 파고 들어가면 숫자로 그 효과를 체감할 수 있습니다. 자료 조사와 평가 후 소프트웨어 엔지니어링, 플랫폼 설계, 하드웨어와 소프트웨어 통합, 소프트웨어 최적화 등의 과정을 거치는 기간은 보통 3개월이 걸립니다.



하드웨어와 소프트웨어가 사전에 최적화되어 제공되는 NVIDIA DGX 서버를 도입하면 DIY 스타일로 직접 구축하는 것보다 내부에서 해야 할 일이 확실히 줄어듭니다. 아래 그림과 같이 사전에 해야 할 8가지 사전 작업 중 6개를 하지 않아도 됩니다.



이를 시간의 흐름으로 다시 정리하면 다음과 같습니다. 3개월 걸릴 일을 1주일로 앞당기는 결과 나오죠.



이상으로 간단히 레퍼런스 아키텍처 도입과 DIY 구축의 차이를 살펴보았습니다. 더 자세한 사항은 유클릭으로 문의 바랍니다.





조회수 800회댓글 0개

Comments


bottom of page