Lablup - Backend.AI

Backend.AI는 AI 분산 처리 솔루션 및 서비스 개발 기업인 래블업(Lablup)이 개발한 클라우드 기술을 기반으로 하는 GPU 자원 관리 플랫폼입니다. Backend.AI는 NVIDIA가 제공하는 NVlink, NVSwitch, NGC 기술에 최적화되어 있어 온프레미스, 하이브리드, 공용 클라우드 어디에 자원이 있건 최상의 성능을 보장합니다. 또한, 컨테이너 클러스터를 대상으로 유연하고 신속하게 GPU 자원을 할당함으로써 온디맨드 방식으료 효율적으로 확장 가능하고 MLOps, DevOps 체계를 손쉽게 확립해 머신 러닝, 딥러닝 모델 개발과 트레이닝을 가속할 수 있습니다.

머신러닝 모델을 구축하고 훈련하는 가장 효율적인 방법!

Backend.AI는 컨테이너 환경에 최적화된 GPU 자원 관리 플랫폼입니다. 이 플랫폼에서 제공하는 GUI 및 앱을 사용해서 단 한번의 클릭으로 딥러닝 클러스터를 실행할 수 있고, 최신 웹 브라우저에서 모델 구축이 가능하며, 태블릿에서도 딥러닝 모델을 교육하고 배포할 수 있습니다. 또한, Jupyter, VSCode, Atom, PyCharm 등의 여러 AI, ML 개발자 도구와 긴밀히 통합되어 있고, 모든 머신러닝 환경이 구성되어 있기 때문에 따로 설치할 필요없이 고객은 온전히 AI에만 집중할 수 있습니다.

Backend.AI MLOps 시스템 구성

GPU 가상화가 있기 때문에 불필요한 GPU 자원 소비에 대한 걱정은 하실 필요 없습니다. 유연한 GPU 자원들을 종량제 방식으로 사용한 만큼만 지불하면 되며, CPU, 메모리, GPU 등 모든 자원을 조합하여 사용할 수 있고, 온프레미스 및 클라우드를 결합하여 신속한 확장이 가능합니다. 또한, 로그인 즉시 사용이 가능하고 이전 및 새 버전의 머신러닝 프레임워크들이 완벽하게 호환, 지원되기 때문에 사용자 입장에서는 여러 도구들을 요구사항에 맞게, 여러 워크로드들로 나누어 편리하게 사용할 수 있습니다. 예를 들어, 모델 개발은 주간에 GPU 전체 사용, 모델 훈련 및 최적화는 야간에 GPU 가상화 최적 조건으로, 데이터 분석과 로그 분석은 새벽에 CPU 중심으로, 이처럼 하이브리드 워크로드를 구성하여 사용이 가능합니다.

NVIDIA 검증! 아시아태평양 최초로 DGX-Ready Software 인증 획득!
KakaoTalk_20210615_133031560.jpg

Lablup의 Backend.AI가 아시아태평양 최초로 NVIDIA DGX-Ready Software 프로그램 인증을 획득했습니다. 이를 통해, Backend.AI를 활용하면 NVIDIA DGX 시스템을 비롯한 NVIDIA 가속 컴퓨팅의 엄청난 컴퓨팅 성능을 최대로 활용하실 수 있음을 확인하실 수 있습니다. Lablup의 컨테이너 GPU 가상화 기술과 결합하여, Backend.AI는 기존 작업을 실행함과 동시에 새로운 워크로드를 위한 유연한 GPU 용량 구성을 지원합니다. 또한, 다른 자원 최적화 기능과 함께 사용자의 경험을 훼손하지 않고 최대한의 잠재력을 발휘하도록 컴퓨팅 자원을 효율적으로 관리합니다.

GPU 활용도 극대화

Backend.AI는 모든 유형의 워크로드에 대해서 비용과 성능 사이 최적의 접점을 찾습니다. 모든 세대의 GPU에 대한 전체 라이프사이클 사용 계획을 제공하며, 리소스가 많이 사용되는 훈련 세션을 위해 현재 세대의 GPU를 번들로 제공할 뿐만 아니라 이전 세대의 GPU도 동시 추론 및 훈련 워크로드를

위한 전용 부분으로 나눌 수 있습니다.

  • NVIDIA MIG(Multi-Instance GPU) 지원

  • 컨테이너 GPU 가상화 확장 지원

클러스터 액세스 단순화

Backend.AI Cloud클러스터 간에 여러 사용자와 작업을 관리

하고 모든 시스템을 활용하기가 어려울 수 있습니다.

Backend.AI는 단일 DGX부터 다중, 대규모 노드 클러스터에

이르기까지 간단하고 일관된 사용자 관리 환경을 제공합니다.

  • 웹 UI / 데스크탑 앱

  • GUI 기반 MLOps 파이프라인/배치

  • 모니터링을 위한 상세 로그 및 통계 제공

  • 자동화 및 통합을 위한 CLI/API/SDK

GPU 활용도 극대화

딥러닝 친화적인 리소스 배치, 분산 처리를 위한 다중 노드 워크로드, 데이터 I/O, Backend.AI를 병렬화하는 스토리지

프록시 기능을 제공하는 고유한 GPU 오케스트레이터와

함께, Backend.AI는 컴퓨팅 자원을 효율적으로 관리하여

최대의 성능을 발휘할 수 있도록 지원합니다.

  • 최적의 리소스 배치를 위한 GPU 오케스트레이터

  • Air-gap 클러스터용 로컬 PyPi/CRAN 저장소

트레이닝 범위 확장

GPU 가상화로 소규모 리소스부터 시작이 가능합니다.

확장이 필요하다면, 문제없이 효율적으로 확장이 가능합니다.

  • 자동 분산 훈련 설정이 있는 다중 노드 / 컨테이너 세션

  • 훈련 및 데이터 I/O 파이프라인 분리

  • CephFS, FlashBlade와 같은 분산 스로티리 솔루션에 대한 파일 I/O 지원 가속화