NAS의 경제성과 편의성을 AI 워크로드에서도 쓰고 싶다면? 174GB/s의 쓰루풋을 NFS/TCP 조합에서 끌어 낼 수 있다는 사실..

엔터프라이즈 컴퓨팅 환경에서 NAS(Network Attached Storage)는 오랜 기간 사랑받아 왔습니다. 구축과 관리가 쉽고, TCO가 저렴하고, 이기종 시스템 간 파일 공유와 전송이 가능하고, 확장성도 좋고, 데이터 보호 기능도 나름 충실하다 보니 인기를 끌 수밖에 없었습니다.


물론 NAS는 단점도 존재합니다. NFS/TCP 조합이 갖는 태생적인 성능 제약이 있습니다. 일반적인 워크로드에는 문제가 되지 않지만, AI 워크로드로 주제를 옮기면 이야기가 달라집니다. AI 워크로드를 원활히 지원하려면 최소 2GB/s 이상의 쓰루풋(throughput) 지원이 가능한 성능이 필요합니다. 하지만 NFS/TCP 조합은 이 기준을 충족하기 쉽지 않습니다. 이런 이유로 많은 이들이 NFS 대신 고성능 병렬 파일시스템을 지원하는 스토리지를 써야 AI 워크로드의 요구를 만족할 수 있다고 생각합니다.


이런 생각은 2~3년 전에는 분명 맞았습니다. 그러나 2020년 현재 시점에서 보면 기술적으로 틀린 말입니다.


VAST Data는 리눅스 커널이 제공하는 NFS 가속 기능과 NVIDIA의 기술을 적절히 활용해 병렬 파일시스템을 쓰지 않고도 GPU 서버에서 운영하는 AI 애플리케이션에 충분한 쓰루풋을 제공합니다. 이를 나열하면 다음과 같습니다.

NFS over RDMA: 인라인 스피드 속도로 이더넷 또는 인피니밴드 네트워크를 통해 연결이 가능해졌습니다.


NFS NConnect: 리눅스 커널 5.3 버전에 새로 추가된 기능 중 하나인 NConnect를 이용하면 단일 NFS 마운트 상에서 다중 TCP 연결을 지원할 수 있습니다. 이 확장 네트워킹 기능을 이용하면 여러 스트림과 포트 I/O를 연계할 수 있습니다.


NVIDIA GPU Direct: NVIDIA가 개발한 이 기술을 이용해 VAST 서버는 CPU 메모리를 거치지 않고 바로 GPU 메모리에 데이터를 저장합니다. 이를 통해 쓰루풋을 늘리고, CPU 부하를 줄입니다.


그렇다면 NFS는 이제 충분히 AI 애플리케이션이 요구하는 쓰루풋을 만족할까요? VAST Data와 NVIDIA는 GPU Direct 지원 스토리지와 NVIDIA DGX 2 서버로 구성한 데모 시스템으로 88GB/s 쓰루풋이 나오는 것을 확인했습니다. 이 수치는 NFS 기반 스토리지가 이뤄낸 성능 중 최고에 해당합니다. 앞서 언급한 AI 워크로드가 요구하는 2GB/s 이상의 쓰루풋을 생각할 때 88GB/s 성능은 AI 시대에도 NAS의 장점은 충분히 통한다는 사실을 알 수 있는 결과입니다.


88GB/s 수치는 시작에 불과합니다. VAST Data의 서버와 LiteSpeed 인클로저 그리고 NVIDIA A100을 연계해 벤치마크를 해본 결과 VAST의 NFS 성능은 174GB/s에 이르렀습니다.









#Vast_Data #NAS #NFS #AI #GPUDirect #Linux_Kernel_nconnect


조회 23회