AI 인프라 네트워크 관리 팁, Mallanox NetQ 활용하기

AI 인프라 성능을 논할 때 빠지지 않는 포인트가 있습니다. 바로 네트워크입니다. 네트워크가 최적의 성능을 유지하려면 가시성을 제공할 수 있는 적절한 도구를 써야 합니다. 이번 포스팅에서 소개할 도구는 이더넷 기반으로 AI 클러스터를 운영하는 조직에게 최선의 선택이라 할 수 있는 Mallanox NetQ를 간략히 살펴보겠습니다.

NetQ는 Cumulus Linux 기반 네트워크 스위치를 이용하는 조직에게 매우 이상적인 도구입니다. 이런 환경에서 NetQ를 활용하면 네트워크 프로비져닝, 운영, 관리를 생명주기(Life cycle) 측면에서 할 수 있습니다. 웹 스케일 규모로 구성 및 운영하는 이더넷 기반 네트워크 환경은 거대하고 복잡합니다. NetQ는 소프트웨어 정의 기반 환경으로 진화하는 엔터프라이즈 네트워크 환경이 갖는 복잡성과 관리의 어려움을 해결합니다.


NetQ는 네트워크 스위치를 배포하고, 구성하고, 업그레이드하고, 수명이 다한 노후 장비 처리 작업을 지원합니다. 더불어 네트워크 가시성 제공, 문제 해결, 검증, 추적 및 비교 등의 중앙집중적인 관리 기능도 충실히 제공합니다. 이를 통해 제공하는 가치는 바로 ‘NetDevOps’입니다. DevOps 관리 체계에 맞게 네트워크 환경을 동적으로 운영할 수 있도록 돕는다는 뜻입니다. 실제로 NetQ가 제공하는 가시성은 컨테이너와 호스트에 할당된 스위치와 포트까지 깊이를 가져갑니다.



NetQ는 클라우드 기반 서비스 형태로 구축하여 운영할 수도 있습니다. 본사와 지사 또는 여러 생산 거점이 지리적으로 떨어져 있고 각 위치에 캠퍼스 네트워크를 구축해 운영 중인 조직이라면 클라우드 환경에서 NetQ를 활용해 모든 환경을 통합 관리할 수 있습니다.


NetQ의 동작 원리는 간단합니다. 호스트, 스위치 등 관리 대상에 에이전트를 배포하여 원격으로 측정 데이터를 수집하고, 이를 토대로 전체 네트워크 환경에 대한 가시성과 통찰력을 제공합니다. 즉, 하드웨어 스위치부터 서비스 계층에 이르기까지 전체 네트워크 스택을 종합적으로 살필 수 있습니다.

NetQ를 잘 활용하면 이더넷 환경에 구축한 GPU 클러스터의 성능 극대화에 큰 도움을 받을 수 있습니다. NetQ는 네트워크 환경에 대한 가시성과 통찰력을 바탕으로 예방적 검증을 지원하여 설정 오류 등의 문제로 인한 성능 저하 걱정이 없습니다. 더불어 어느 날 갑가지 성능 저하 현상이 발생할 경우 네트워크 경로를 추적하고, 과거 네트워크 상태를 재현하고, 각종 이벤트 로그를 검토해 성능에 영향을 끼친 근본적인 문제가 무엇인지 파악할 수 있습니다.


AI 데이터센터 운영에 있어 앞으로 NetDevOps를 고려하는 조직이 늘어날 것입니다. NetQ는 이런 고민에 대한 좋은 방향성을 제시합니다. 관심이 있는 분은 NetQ 홈페이지를 참조 바랍니다.

#NVIDIA #NETQ #Mallanox #NetDevOps #Cumulus_Linux

조회 10회