AI 클러스터 관리의 새 지평을 연다! Base Command

AI 인프라에 대한 기업의 투자가 빠르게 늘고 있습니다. 이는 AI 프로젝트가 많아지다 보니 일어나는 자연스러운 현상인데요, 인프라 규모가 커지면서 기업들은 새로운 고민에 빠져 있습니다. 바로 관리입니다.

클러스터 규모를 넘어 데이터센터 스케일로 컴퓨팅 환경이 커지면 관리에 복잡성이 커집니다. 이런 통합 관리의 목마름을 해소할 방법은 찾아보면 많습니다. 하지만 뭔가 좀 복잡하고 어럽죠. 네, 학습 곡선에 따라 처음에는 꽤 많은 시행착오를 겪습니다. 이런 현장의 고충을 해결하기 위해 NVIDIA는 Base Command를 2021년 연말 출시할 계획입니다.

Base Command는 대규모 AI 클러스터 관리를 간소화합니다. 가령 DGX SuperPOD로 구성한 대규모 AI 데이터센터가 있다고 가정해 보겠습니다. 이 환경에 Base Command Manager를 적용하면 전체 인프라에 대한 모니터링과 관리 환경을 일원화할 수 있습니다.


인프라 관리자는 Base Command Manager가 제공하는 대시보드를 통해 현재 수행 중인 각각의 잡(job) 단위로 자원 활용 현황, 텔레메트리 정보를 일목요연하게 파악할 수 있습니다. 또한, 부서 또는 사용자 단위로 현재 진행 중인 프로젝트 현황, 자원 이용 내역 등도 직관적으로 볼 수 있습니다.

그렇다면 Base Command Manager은 인프라 모니터링 솔루션인가? 아닙니다. 더 폭넓은 기능을 제공합니다. 이 도구를 이용하면 잡 생성도 할 수 있습니다. 자원을 많이 확보해야 하는 경우 멀티 노드 잡을 생성 하면 됩니다. 템플릿을 생성해 두면 프로젝트 유형별로 템플릿을 만들어 놓으면 잡 생성을 더욱 간편히 할 수 있습니다.


네, Base Command Manager는 AI 데이터센터에서 잡을 생성 하고, 실행하고, 모니터링하는 다재다능한 관리 환경입니다. 일단 다음 데모를 한번 보시죠. 빨리 공식 릴리즈가 발표되면 좋겠다 싶은 마음이 들 것입니다. Base Command 정식 릴리즈 후 상세 내용을 별도 포스팅으로 소개하겠습니다.



#NVIDIA #NVIDIA_Base_Command #Base_Command_Manager #DGX_SuperPOD

조회 20회