top of page

GPU 자원 관리 효율성에 대한 기업의 목마름을 해결하는 솔루션 - Element AI의 Orkestrator

AI가 비즈니스 전략에서 차지하는 비중이 커지면서 관련 프로젝트도 늘고 있습니다. 관련해 요즘 GPU 인프라에 대한 관리 고민이 커지고 있습니다. 프로젝트 수가 몇 되지 않던 시절에는 부서, 팀 단위로 NVIDIA GPU를 장착한 워크스테이션이나 서버를 사용해도 충분했습니다. 그러던 것이 AI 관련 프로젝트가 늘면서 자원 수요가 늘게 되었고, 이에 기업은 클러스터 단위로 인프라를 확장하기 시작하고 있습니다. 상황이 이렇게 되면서 전에 없던 관리 이슈가 불거지고 있습니다. 기존에 투자해 운영하던 GPU 자원 그리고 신규 투자 인프라 관련 자원 효율성 문제가 생긴 것입니다. 총량을 따지면 GPU 파워가 충분한데, 막상 데이터 과학자, AI 개발자의 요구에 응하다 보면 어딘가 병목 구간이 생기는 것입니다.


무엇이 문제일까요? 네, 여기저기 흩어져 있는 GPU 자원을 하나의 인프라로 유연하게 묶어 자원을 효율적으로 배분하지 못해 생기는 병목 현상입니다. 이를 해결하기 위한 솔루션 중 하나인 Element AI의 Orkestrator를 간단히 소개하겠습니다.


Element AI의 Orkestrator


Element AI는 AI 분야를 대표하는 3대 그루 중 하나인 요수아 벤지오(Yoshua Bengio)가 공동 창업자로 참여한 세계적인 AI 기술 전문 기업입니다.


Orkestrator는 GPU 클러스터 환경에서 컴퓨트와 스토리지 자원 사용 최적화를 돕는 솔루션입니다. GPU 클러스터가 물리적 인프라라면 이 환경의 자원을 통합 관리하기 위해 반드시 써야 하는 그런 종류의 솔루션이라 보면 됩니다. 간단히 동작 원리를 살펴보겠습니다.


Submit

CLI를 이용해 도커 이미지 빌드하고, 잡(Job)을 제출하는 단계입니다. Orkestrator는 잡의 유형에 따라 역동적으로 자원을 배치하고, 보안 관련해 사용자 접근 제어와 데이터 세트 이용 제한 등을 수행합니다.




Run

잡 상태는 지속해서 업데이트가 됩니다. 이 정보를 토대로 Orkestrator는 워크로드 관련 작업 부하을 적절히 분산합니다.




Monitor

실행 중인 잡 관련 내용은 대시보드를 통해 확인할 수 있습니다. IT 관리자는 전체 클러스터 내에서 자원이 어떻게 사용되고 있는지, 각각의 잡에 대한 처리 성능은 어떤지 등을 한눈에 파악할 수 있습니다




Maintain

IT 관리자는 각각의 GPU 자원에 대한 상태를 확인할 수 있습니다. 또한, 클러스터 유지보수를 시스템 중단 없이 수행할 수 있습니다.


Orkestrator는 기업의 필요에 따라 온프레미스에 구축해 운영할 수도 있고, Orkestrator-as-a-Service로 이용할 수도 있습니다. 관련해 더 자세한 내용은 Element AI 사이트를 참조 바랍니다. 더불어 Orkestrator 계열의 GPU 잡스케줄링 관련 국내외 주요 솔루션은 대한 비교는 uDNA 사이트를 참조 바랍니다.



조회수 159회댓글 0개

Comments


bottom of page