Chang Sun Park2021년 6월 28일1분GPU 간 통신 최적화로 HPC 애플리케이션 성능을 75% 높이는 방법HPC를 쓰는 이유는? 고성능 컴퓨팅 때문입니다. 따라서 HPC 투자 효과를 극대화하는 것은 곧 HPC 성능을 모두 끌어다 알뜰살뜰 사용하는 것입니다. 말이 쉽지 성능 극대화를 하려면 하드웨어 지식이 풍부해야 합니다. 다행히 GPU 서버의 성능...
Chang Sun Park2021년 3월 1일2분AI 인프라 네트워크 관리 팁, InfiniBand 통합 패브릭 관리하기 이전 포스팅에서는 이더넷 기반 AI 인프라 관리에 도움이 되는 도구를 알아보았습니다. 이번에는 인피니밴드(InfiniBand) 환경으로 GPU 클러스터를 운영하는 곳을 위한 네트워크 관리 도구인 Mellanox UFM(Unified Fabric...
Chang Sun Park2020년 9월 2일2분대규모 분산 컴퓨팅 환경에서 딥러닝 프로젝트 발목을 잡는 네트워크/스토리지 성능 문제 해결을 위한 팁 딥러닝 프로젝트 관련해 컴퓨팅 성능에 대한 기업의 고민이 깊어지고 있습니다. 클러스터가 처리해야 하는 작업은 나날이 늘고 있습니다. 문제는 모델이 점점 커지고 있고, 트레이닝을 위해 사용하는 데이터 양도 많아지고 있다는 것입니다. 그러다 보니...