NAS의 경제성과 편의성을 AI 워크로드에서도 쓰고 싶다면? 174GB/s의 쓰루풋을 NFS/TCP 조합에서 끌어 낼 수 있다는 사실..

엔터프라이즈 컴퓨팅 환경에서 NAS(Network Attached Storage)는 오랜 기간 사랑받아 왔습니다. 구축과 관리가 쉽고, TCO가 저렴하고, 이기종 시스템 간 파일 공유와 전송이 가능하고, 확장성도 좋고, 데이터 보호 기능도 나름 충실하다 보니 인기를 끌 수밖에 없었습니다.


물론 NAS는 단점도 존재합니다. NFS/TCP 조합이 갖는 태생적인 성능 제약이 있습니다. 일반적인 워크로드에는 문제가 되지 않지만, AI 워크로드로 주제를 옮기면 이야기가 달라집니다. AI 워크로드를 원활히 지원하려면 최소 2GB/s 이상의 쓰루풋(throughput) 지원이 가능한 성능이 필요합니다. 하지만 NFS/TCP 조합은 이 기준을 충족하기 쉽지 않습니다. 이런 이유로 많은 이들이 NFS 대신 고성능 병렬 파일시스템을 지원하는 스토리지를 써야 AI 워크로드의 요구를 만족할 수 있다고 생각합니다.


이런 생각은 2~3년 전에는 분명 맞았습니다. 그러나 2020년 현재 시점에서 보면 기술적으로 틀린 말입니다.


VAST Data는 리눅스 커널이 제공하는 NFS 가속 기능과 NVIDIA의 기술을 적절히 활용해 병렬 파일시스템을 쓰지 않고도 GPU 서버에서 운영하는 AI 애플리케이션에 충분한 쓰루풋을 제공합니다. 이를 나열하면 다음과 같습니다.

NFS over RDMA: 인라인 스피드 속도로 이더넷 또는 인피니밴드 네트워크를 통해 연결이 가능해졌습니다.