top of page

AI 인프라 네트워크 관리 팁, InfiniBand 통합 패브릭 관리하기

이전 포스팅에서는 이더넷 기반 AI 인프라 관리에 도움이 되는 도구를 알아보았습니다. 이번에는 인피니밴드(InfiniBand) 환경으로 GPU 클러스터를 운영하는 곳을 위한 네트워크 관리 도구인 Mellanox UFM(Unified Fabric Manager) 플랫폼을 소개하겠습니다.

UFM 플랫폼은 전통적인 통합 네트워크 관리 도구가 제공하는 프로비저닝, 모니터링, 관리, 예방적 문제 해결 등을 충실히 제공합니다. 최근 모든 도구의 기본 기능으로 자리 잡고 있는 AI 기반 기능 역시 기본 탑재하고 있습니다. UTM 플랫폼은 AI 기술을 적용해 네트워크 이상 감지 및 예측 기반의 유지 보수를 지원합니다. 이를 통해 크고 작은 문제에 관리자가 일일이 개입하지 않아도 네트워크 패브릭이 늘 최고의 성능을 유지할 수 있습니다.

UFM 플랫폼은 크게 UTF 텔레메트리, UTM 엔터프라이즈, UFM 사이버-AI 세 가지 형태로 공급됩니다. 기업은 현재 구축해 운영 중인 인피니밴드 기반 클러스터 또는 AI 데이터센터 규모와 필요에 맞는 솔루션을 선택할 수 있습니다.

UTF 텔레메트리는 원격 측정 도구로 실시간으로 네트워크 모니터링 정보, 워크로드 및 시스템 구성 정보 등을 수집합니다. UTF 텔레메트리를 적용하면 네트워크 관리자는 스위치, 어댑터, 케이블 등의 상태 정보를 원격으로 수집할 수 있습니다. 더불어 구성 정보를 토대로 시스템을 검증하고 워크로드 사용량 등을 참조해 네트워크 성능을 테스트할 수 있습니다. 다양한 원천에서 수집한 풍부한 데이터는 온프레미스 또는 클라우드 기반 데이터베이스에 저장해 관리할 수 있습니다.

UTF 텔레메트리가 모니터링에 집중하는 도구라면 UTF 엔터프라이즈는 네트워크 패브릭 가시성과 제어까지 제공하는 플랫폼입니다. UTF 엔터프라이즈는 자동화 기반의 네트워크 검색, 프로비저닝, 트래픽 모니터링, 네트워크 혼잡 현상 탐지 등을 수행합니다. UTF 엔터프라이즈는 OpenStack, Azure, VMWare와 통합도 지원해 하이브리드, 멀티 클라우드 전략 아래에 네트워크 통합 관리 전략을 세우는 데에도 유리합니다. 참고로 UTM 플랫폼은 API를 통해 Slurm, Platform LSF 같은 작업 스케줄러, 클라우드 및 클러스터 관리자와 통합이 간편해 기존 도구를 이용하면서 UDF의 이점을 취할 수 있습니다.


UFM 사이버-AI는 UTF 텔레메트리, UTF 엔터프라이즈의 장점을 하나의 솔루션으로 모은 것입니다. 이름에 AI를 붙였을 만큼 단순 자동화를 넘어 네트워크 환경에서 일어나는 각종 현상 간의 상관관계에 대한 이해를 바탕으로 예측 기반으로 성능을 최적화하고 유지보수 작업을 합니다. 이것이 바로 사이버 인텔리전스 및 분석 기반 도구라고 UFM 사이버-AI를 부르는 이유입니다. 좀 더 자세히 알아보자면 UFM 사이버-AI는 원격 측정 정보를 단순 로그 데이터가 아니라 사이버 인텔리전스화 합니다. 무슨 말이냐 하면 원격 측정 정보를 데이터 세트로 활용해 딥러닝 알고리즘을 돌려 각종 이벤트 간의 상관관계 속에서 현재와 밀의 성능 저하나 컴퓨팅 자원의 비정상적인 사용을 분석하고 예측합니다.



이상으로 간단히 인피니밴드 깁나 데이터센터를 지원하기 위해 실시간 네트워크 원격 측정과 AI 기반 사이버 인텔리전스 및 분석을 결합한 솔루션인 UTF 플랫폼에 대해 알아보았습니다. 더 자세한 내용은 관련 페이지를 참조 바랍니다.



조회수 85회댓글 0개

Comments


bottom of page