top of page

Nsight Systems 도구를 이용한 NVIDIA Grace CPU 성능 튜닝

NVIDIA의 그레이스 CPU는 데이터 센터용으로 설계된 NVIDIA의 첫 번째 CPU로, 뛰어난 단일 및 멀티스레드 성능, 높은 메모리 대역폭, 우수한 전력 효율성을 자랑합니다. 이 CPU는 AI, 고성능 컴퓨팅(HPC), 클라우드 컴퓨팅을 가속합니다. 이 포스팅에서는 Nsight Systems 도구를 이용한 NVIDIA Grace CPU 성능 튜닝을 간단히 살펴보겠습니다.


Grace CPU 성능 모니터링


NVIDIA의 Grace CPU에는 Arm 성능 모니터링 유닛(PMU)이라는 특별한 기능이 포함되어 있습니다. 이 PMU는 '이벤트 카운터'라고 불리는 도구를 사용하여 CPU의 성능을 감시하고 분석합니다. 이벤트 카운터는 CPU가 수행하는 다양한 작업들을 계산하고, 이를 통해 전체적인 성능을 평가할 수 있게 해줍니다.


또한, Grace CPU는 Arm 통계적 프로파일링 확장(SPE)을 통해 성능 측정을 더 효율적으로 수행합니다. SPE는 하드웨어의 성능을 더 자세하게 살펴볼 수 있도록 돕는데, 이는 성능 관련 데이터를 적은 컴퓨터 자원을 사용하여 (낮은 오버헤드로) 높은 해상도로 측정하고 분석할 수 있게 합니다. 이를 통해 CPU의 성능을 더 정확하고 효율적으로 파악할 수 있습니다.


Nsight Systems이란?


NVIDIA의 Nsight Systems는 다양한 컴퓨터 구성 요소에서 발생하는 이벤트와 활동을 분석하는 도구입니다. 이 도구는 Grace CPU를 포함한 여러 하드웨어 컴포넌트(GPU, DPU, 메모리, 네트워크)에서 발생하는 이벤트와 API 활동을 동시에 살펴보고, 이를 시각적으로 보여줍니다.


특히, Nsight Systems는 Grace CPU의 '코어 이벤트 속도'를 측정하여, CPU 코어가 어떻게 동작하고 있는지를 분석합니다. 여기에는 CPU 사이클, 명령어 실행, 캐시 참조 등의 세부 정보가 포함되어 있으며, 이러한 데이터는 각 CPU 코어의 성능과 효율성을 평가하는 데 도움이 됩니다.



Nsight Systems 언코어 이벤트 속도

또한, Nsight Systems의 '언코어 이벤트 속도'는 NVIDIA의 Grace CPU에서 코어 외부에서 일어나는 작업을 분석합니다. 여기에는 메모리 접근, PCIe (주변장치 연결 인터페이스) 이벤트 및 NVIDIA NvLink-C2C(데이터 전송을 위한 고속 연결) 활동 등이 포함됩니다. 이 정보는 특히 Grace Hopper Superchip이나 Grace CPU Superchip 같은 고급 제품에서 중요한데, 이들은 NvLink-C2C를 사용하여 Grace CPU를 NVIDIA Hopper GPU 또는 다른 Grace CPU와 연결합니다. 이러한 언코어 이벤트와 코어 이벤트의 분석을 통해, Grace CPU에서 실행되는 애플리케이션의 성능을 더 정밀하게 이해하고 최적화 전략을 개발할 수 있습니다.


NVIDIA의 프로세서와 소프트웨어 스택으로 구성한 데이터센터에서 CUDA 커널의 성능을 분석하는 것은 매우 중요합니다. 이를 위해 NVIDIA는 Nsight Compute라는 특별한 도구를 제공합니다. 이 도구의 새로운 기능인 '성능 모니터 샘플링(PM 샘플링)'을 사용하면, CUDA 커널 내부에서 시간에 따라 변하는 성능 문제를 자세히 파악할 수 있습니다. 즉, 커널의 성능을 시간 순서대로 분석하여 표준적인 성능 지표만으로는 감지하기 어려운 문제를 발견할 수 있습니다. PM 샘플링을 활용하면 어플리케이션의 성능을 더욱 정밀하게 최적화할 수 있는 깊은 통찰력을 얻을 수 있습니다.

Nsight Compute PM 샘플링


Nsight Compute PM 샘플링은 CUDA 코드의 성능을 최적화하기 위한 NVIDIA의 도구 중 하나입니다. 이 도구는 소스 코드의 변화가 커널 성능에 어떤 영향을 미치는지 분석할 수 있게 해줍니다. 즉, 코드 수정 후 성능에 어떤 변화가 발생했는지 직접 비교하여 볼 수 있습니다. 이를 통해, 개발자는 소스 코드의 변화가 성능에 미친 구체적인 영향을 이해하고, 필요한 최적화를 진행할 수 있습니다. 이 기능은 특히 GPU에서 실행되는 CUDA 코드의 성능 튜닝에 유용하며, Grace CPU와 같은 데이터 센터 컴퓨팅 환경에서의 효율성을 높이는 데 도움이 됩니다.

성능 튜닝 리소스


이상으로 간단히 Nsight Systems 및 Nsight Compute를 이용한 Grace CPU 성능 튜닝에 대해 알아보았습니다. 실제로 어떻게 작업을 하는 지는 다음 데모 영상을 참조 바랍니다. 그리고

Nsight Systems 및 Nsight Compute에 대한 더 자세한 정보는 NVIDIA 페이지를 참조하거나 유클릭으로 문의 바랍니다.



조회수 310회댓글 0개

Comments


bottom of page