AI 프로젝트를 성공으로 이끄는 길을 여러 가지입니다. 이들 길을 가는 데 있어 기본 전제가 있습니다. 고성능 서버와 스토리지입니다. ML/DL 모델 훈련과 추론을 위해 GPU 서버의 존재 가치는 모두가 잘 압니다. 여기에 한 가지 필요충분조건이 더해져야 ML/DL 프로젝트의 성과를 앞당길 수 있습니다. 바로 AI 환경에 맞는 스토리지입니다. 모델 개발, 훈련, 재훈련, 추론 등의 작업을 하는 동안 대량의 데이터가 병목 구간 없이 원활하게 흐를 수 있는 길이 필요합니다. 이 길을 트려면 AI 워크로드 특성을 수용할 수 있는 고성능 NVMe 기반 AI 스토리지가 필요합니다. 관련해 NVIDIA DGX SuperPOD 환경에 NetApp EF500 올플래시 어레이를 구성할 때 얻을 수 있는 성능 이점에 대해 알아보겠습니다.
NVIDIA DGXSuperPOD과 단짝을 이루는 스토리지는?
NVIDIA DGXSuperPOD의 성능은 따로 설명할 필요가 없습니다. 이 성능을 고스란히 유지하는 가운데 AI 워크로드를 지원하는 데 있어 올바른 스토리지 선택은 매우 중요합니다. 사실 스토리지를 선택한다는 것은 컴퓨트, 네트워크, 스토리지를 모두 고려해 최적의 성능을 안정적으로 유지할 수 있는 솔루션을 고르는 것과 같습니다. 사실 최적의 선택을 조직이 직접 하는 것은 어렵습니다. 이런 이유로 NVIDIA는 자사 GPU 서버 아키텍처에 최적화된 성능을 제공하는 솔루션 인증 프로그램을 운영하고 있습니다. 네, NVIDIA DGXSuperPOD의 겪에 맞는 최적의 스토리지 선택은 인증 솔루션을 고르는 것입니다.
NVIDIA 인증 스토리지를 도입하면 인프라 구축 시간을 크게 단축할 수 있습니다. 사전 도입 검토 과정에서 성능, 확장성 등을 세세하게 살피지 않아도 되고 설치 과정에서 최적화에 긴 시간을 할애할 이유가 없기 때문입니다.
NVIDIA DGXSuperPOD과 NetApp EF600을 이용한 인프라 구성
본 포스팅에서는 NVIDIA DGXSuperPOD 환경으로 인프라를 구성할 때 스토리지로 NetApp EF600을 적용하는 것에 대해 소개합니다. NetApp EF600 올플래시 어레이는 여러 개의 워크로드가 동시에 운영되는 환경에서도 근 실시간 데이터 접근이 가능한 고성능 스토리지입니다. AI 인프라는 보통 여러 명 또는 여러 부서나 팀에서 GPU 자원을 공유하는 방식으로 활용합니다. 즉, 여러 워크로드가 동시에 운영되는 환경인데, 이런 조건에서도 근 실시간 데이터 접근이 가능한 성능을 제공하는 것이 바로 NetApp EF600입니다.
NetApp EF600은 캐싱 기반의 2백만 읽기 IOPS 성능, 100마이크로 초 미만의 응답 시간, 단일 인클로저 상에서 44GBps의 순차 읽기 대역폭 지원, 99.9999%의 가용성 보장 등을 특징으로 합니다. 더불어 NVIDIA DGXSuperPOD을 확장할 때 유연하게 스토리지 인프라도 함께 늘려 갈 수 있습니다.
Comments