클라우드, AI, 스토리지 영역에서 뛰어난 성능을 보이는 NVIDIA Spectrum-3 이더넷 스위치

네트워크는 언제나 데이터센터 성능을 좌우하는 요소입니다. 데이터센터 네트워크 패브릭의 성능은 워크로드 성능과 직결됩니다. 그렇다면 어떤 스위치를 선택하는 것이 클라우드와 AI 시대에 적합할까요? 관련해 IT 제품 성능 평가 기관으로 유명한 Tolly Group의 최근 수행한 NVIDIA Spectrum-3 스위치 벤치마킹 결과를 소개합니다. 인프라 현대화 계획이 있다면, 이 벤치마킹 결과가 바른 스위치 선택에 큰 도움이 될 것입니다.


분산 워크로드 처리 성능(AI, Spark)


모든 스위치는 패킷 손실을 최소화하기 위해 버퍼를 둡니다. 스위치가 처리할 수 있는 것을 넘어서는 트래픽이 몰려오면 스위치는 버퍼링을 통해 시간을 벌어 줍니다.


일반적인 애플리케이션은 버퍼의 보이지 않는 역할을 통해 트래픽 폭주 상황에서 응답 시간 저하의 위험을 줄이죠. 일반적인 워크로드와 달리 AI, Spark 같은 분산 워크로드는 다대일 통신을 합니다. 이 경우 트래픽 폭주 상황에서 TCP Incast 문제가 발생할 수 있습니다. 분산 클러스터 내 서버들이 동시에 응답하다 보니 처리량이 늘어 지연 현상이 발생할 수 있는 것이죠.


그렇다면 분산 워크로드의 경우 TCP 성능 저하를 어떻게 막아야 할까요? 버퍼 크기를 무작정 늘리는 것은 답이 아닙니다. 비용이 너무 커질 수 있기 때문이죠. TCP 알고리즘 개선에서 답을 찾을 수도 있지만, 이는 네트워크 전문 기업이 할 일입니다. 데이터센터 운영자에게 가장 현실적인 솔루션은 스위치가 AI, Spark 같은 분산 워크로드의 특성을 수용할 수 있는 버퍼 관리 기법을 제공하는 것입니다.

Tolly Group의 테스트에 따르면 NVIDIA Spectrum-3 스위치는 버퍼 크기가 같은 범용 스위치와 비교해볼 때 분산 워크로드의 패킷 버스트를 흡수하는 것으로 나타났습니다. 쉽게 말해 NVIDIA Spectrum-3 스위치 1대가 할 수 있는 버퍼링을 범용 스위치로 처리하려면 8대가 필요하다는 것입니다. Tolly Group에 따르면 NVIDIA Spectrum-3 스위치는 클러스터 내 모든 분산 서버의 마이크로 버스트 트래픽을 고르게 흡수합니다. 이에 따라 각 노드의 속도 저하가 없습니다.


사설 및 공용 클라우드 성능

클라우드 환경은 여러 사용자가 자원을 공유하는 환경입니다. 이처럼 여러 테넌트가 CPU, GPU, 네트워크 대역폭 같은 자원을 공유할 때 나타나는 문제가 있죠. 네, 시끄러운 이웃(Noisy Neighbor) 문제입니다. 자원을 과도하게 사용하는 이웃이 있으면 성능이나 안정성 측면에서 좋을 것이 하나 없습니다. 이런 문제의 해결책은 이웃 간 확실한 경계를 그어 주는 것입니다. 네트워크 측면에서 보자면 이웃 잘못 만나서 대역폭을 희생하지 않도록 보호하는 것이 중요한데요. Tolly Group의 테스트에 따르면 NVIDIA Spectrum-3 스위치는 다중 테넌트 확장 시에도 시끄러운 이웃으로 인한 트래픽 처리에 영향을 받지 않습니다. 네, 각 테넌트의 자원을 안전하게 시끄러운 이웃으로부터 보호하는 것이죠.



스토리지 성능


오늘날 데이터센터에서 사용하는 대부분의 스토리지 트래픽은 이더넷을 타고 오갑니다. 보통 9KB 점보 프레임을 사용하는데요, 이에 따라 스위치 대부분은 9KB의 패킷 크기를 기본으로 지원합니다. 스위치가 이 기준을 충족한다고 해서 최신 워크로드가 요구하는 스토리지 성능을 내는 데 충분한 것은 아닙니다. 스위치가 제 역할을 해주어야 이더넷 기반 분산 스토리지 환경에서 고른 성능이 나옵니다. Tolly Group은 IXIA의 네트워크 성능 테스트 도구를 사용해 모든 스토리지 노드에서 9KB 크기의 패킷 트래픽을 고르게 처리하는지 평가하였습니다. 결과에 따르면 NVIDIA Spectrum-3 스위치는 모든 노드에서 예측 가능한 성능을 보여 주었습니다. 비교 대상이었던 범용 스위치의 경우 노드마다 들쭉날쭉한 트래픽 처리 성능을 보였습니다.

애플리케이션 성능


대부분의 데이터센터 환경은 고유한 패킷 크기를 가진 다양한 애플리케이션을 실행합니다. 때에 따라 단일 애플리케이션도 여러 패킷 크기를 사용합니다. Tolly Group의 평가에 따르면 NVIDIA Spectrum-3 스위치는 다양한 패킷 크기를 유연하게 처리하면 성능 손실을 보이지 않았습니다. 반면에 범용 스위치는 작은 패킷 크기에 따라 일관성 없는 성능 편차를 보였습니다.



이상으로 Tolly Group의 NVIDIA Spectrum-3 스위치 벤치마크 주요 내용을 살펴 보았습니다. 전체 내용은 보고서 전문을 참조 바랍니다.

조회 7회