Run:AI 플랫폼 사용 후 GPU 활용률이 110% 증가한 런던 의료 영상 & AI 센터

Run:AI 플랫폼은 NVIDIA DGX Ready 인증을 받은 스케줄링 플랫폼입니다. Run:AI 일반적인 스케줄러와 다릅니다. 쿠버네티스를 기반으로 하는 스케줄링 오케스트레이션 플랫폼으로 동적 자원 할당을 통해 지금껏 없던 수준으로 GPU 활용률을 높입니다. 관련해 사례 하나를 알아볼까 합니다.



AI 기반 의료 혁신을 주도하는 연구 기관의 선택

The London Medical Imaging & AI Centre for Value Based Healthcare(이하 런던 의료 영상 & AI 센터)는 Run:AI 플랫폼을 도입해 효과를 톡톡히 보고 있습니다. 조직이 하는 일은 이름에 나와 있습니다. AI 기술을 활용해 MRI, CT, PET 같은 의료 영상 장비로 촬영한 데이터 세트로 질병을 진단하고, 맞춤형 치료 방안을 연구하는 조직입니다.


런던 의료 영상 & AI 센터 조직 구성원은 화려합니다. AI 전문가, 데이터 과학자, 의료 연구 및 임상 전문가 집단입니다. 인력 구성만 좋은 게 아닙니다. AI 인프라도 꽤 잘 갖추고 있습니다. AI 인프라 관리 팀이 NVIDIA DGX-1, DGX-2 등의 서버로 구성한 클러스터를 운영하고 있습니다.


30% 미만의 GPU 활용률이 고민


런던 의료 영상 & AI 센터는 AI 인프라 투자를 늘리는 가운데 한 가지 고민을 풀지 못합니다. 자원 활용률을 높일 방안을 찾지 못했던 것이죠. GPU 활용률이 30% 미만이라고 하니 고민이 컸을 것 같습니다. 관련해 연구원들은 볼멘 소리를 자주 했을 것 같네요. 강력한 컴퓨팅 파워가 필요한 작업을 위해 자원을 대거 할당받아 잡(job)을 돌리는 경우 시스템이 과부하 상태가 되곤 하였다고 합니다. 정적으로 자원을 할당하다 보니 필요 이상으로 자원을 잡아 GPU 파워의 일정 부분이 유휴 상태에 있어도 이를 활용할 마땅한 방법이 없어 다른 연구원들은 해당 잡(job)이 끝날 때까지 차례를 기다려야 했었습니다.


Run:AI 플랫폼으로 같은 시스템에서 많은 작업 수행


런던 의료 영상 & AI 센터는 Run:AI 플랫폼 도입으로 오랜 고민을 해결했습니다. 효과는 도입 즉시 나타났습니다.

GPU 활용률은 도입 전과 비교해 110% 증가하였습니다. 자원 활용률이 늘었다는 것은 다른 측면에서 연구원들이 많은 작업을 같은 인프라 상에서 있게 되었음을 뜻합니다. 실제로 40일간 평균 162개의 실험을 하던 런던 의료 영상 & AI 센터는 Run:AI 플랫폼 도입 40일간 300 이상의 실험을 있게 되었다고 합니다. 인프라 성능은 동일한데 있는 일의 양은 2 가까이 늘었습니다. 이게 가능한 것은 Run:AI 플랫폼이 동적으로 GPU 자원을 할당할 있어 가능한 것입니다.


Run:AI 플랫폼은 일반적인 스케줄러와 달리 사용자가 요청한 만큼 자원을 할당하지 않습니다. 사전에 정의한 규칙과 정책을 기반으로 기본 보장 리소스 할당량을 기준으로 워크로드에 맞게 자원이 동적으로 조정됩니다. 따라서 몇몇 작업의 자원 점유로 인해 무한정 기다려야 하는 불편이 없습니다. 가능한 많은 작업을 동시에 처리할 있기 때문입니다.

이처럼 동일 인프라와 성능 기준으로 많은 작업을 처리할 있게 되면서 전반적인 생산성이 높아진 결과 런던 의료 영상 & AI 센터는 빠르게 실험을 반복하며 더 나은 진단 도구와 치료 방법을 탐구하는 역량을 높일 수 있게 되었습니다.


#RUNAI #NVIDIA #GPU #GPU잡스케줄러

조회수 64회