컴퓨팅 리소스 최적화로 AI 워크플로우 가속 

RUN:AI 플랫폼을 적용하면 데이터 과학자와 개발자는 평소 사용하는 도구로 GPU, CPU 자원을 온디맨드 방식으로 활용할 수 있습니다. 클러스터 관리자에게 일일이 자원 할당을 요청하지 않아도 됩니다. 리소스 관리와 할당이 자동으로 이루어지므로 사용자는 셀프서비스로 필요 자원을 이용할 수 있습니다. RUN:AI는 정적인 스케줄링이 아니라 동적으로 자원을 할당합니다. RUN:AI 플랫폼은 리소스를 가상화합니다. 이를 통해 유연한 리소스 풀링 및 공유를 지원합니다. 정적 방식으로 자원을 할당할 경우 작업이 끝나 리소스를 반환할 때까지 해당 자원은 점유 상태에 있습니다. 반면에 RUN:AI 플랫폼은 스케줄링에 따라 사용 중인 자원도 실제 활용률이 높지 않을 경우 유동적으로 다른 작업에 동적으로 배치할 수 있습니다. RUN:AI 플랫폼은 작업에 할당한 리소스 수를 동적으로 변경할 수 있어 인프라 전반의 자원 활용률을 늘 최상으로 유지합니다. 

스크린샷 2022-04-26 오전 9.59.16.png
자동화 기반 탄력적인 자원 관리

RUN:AI 플랫폼은 AI 클러스터 관리 방식을 바꿉니다. RUN:AI 플랫폼은 온프레미스와 클라우드 여러 위치에 있는 자원을 거대한 가상화 기반의 자원 풀로 묶습니다. 그리고 대시보드를 통해 전체 자원 풀의 사용 현황을 투명하게 파악합니다. IT 팀은 사용자의 리소스 요구를 수작업으로 대응할 필요 없습니다. 자원의 동적 할당은 사전에 정의한 정책에 따라 자동으로 이루어집니다. RUN:AI 플랫폼은 쿠버네티스를 기반으로 삼습니다. 따라서 과학자와 개발자는 평소 사용하는 도구에서 셀프서비스 방식으로 필요 자원을 예약하고 사용할 수 있습니다. 이런 특징으로 RUN:AI 플랫폼은 도입 즉시 MLOps 파이프라인에 손쉽게 통합할 수 있습니다. 

스크린샷 2022-04-26 오전 10.34.45.png

통제 및 가시성

 

  • 직관적인 도구로 간편하게 정책 설정 

  • 온프레미스와 클라우드 등 여러 위치에 있는 GPU 자원의 활용률, 사용 패턴, 워크로드 지연 시간, 비용 등을 실시간으로 추적해 전체 자원 풀에 대한 가시성 제공 

스크린샷 2022-04-26 오전 10.34.50.png

잡 스케줄링 최적화 

  • 자동화 기반 GPU 클러스터 관리, 오케스트레이션

  • 효율적인 자원 공유를 위한 작업 대기열(Job Queuing)

스크린샷 2022-04-26 오전 10.34.54.png

쿠버네티스 기반

 

  • RUN:AI 플랫폼은 쿠버네티스 플러그인 형태로 구현한 솔루션임

  • 조직에서 운영 중인 컨테이너 플랫폼 및 MLOps 도구와 매끄러운 연계 및 통합이 가능 

스크린샷 2022-04-26 오전 10.35.00.png

유연한 동적 자원 할당 

  • RUN:AI 플랫폼은 탄력적이고 동적인 방식으로 각각의 작업에 자원을 할당함

  • 동일 장비에서 더 많은 Job을 실행 가능