top of page

프로덕션 환경에서 인퍼런스(Inference) 성능을 단번에 끌어올리는 NVIDIA TensorRT Hyperscale Inference Platform

AI 기반 서비스, 애플리케이션 개발이 빠르게 늘고 있습니다. 목적은 다양하죠. 소비자의 새로운 욕구를 충족하는 것부터, 신규 시장 개척, 현업 부서의 요청, 엣지 컴퓨팅의 확대 등 다양한 이유로 AI 프로젝트 수가 늘어나고 있습니다. 이런 흐름 속에서 기업은 새로운 성능에 관심을 갖기 시작하고 있습니다. 네, 바로 프로덕션 환경에서의 인퍼런싱(inferencing) 성능과 속도 확보에 관심을 보이고 있는 것입니다.

성능하면 가장 먼저 속도를 떠올립니다. 사실 인퍼런싱에서 속도는 성능의 한 요소에 불과합니다. 인퍼런싱 성능을 개선하려면 다음과 같이 여러 요소를 모두 따져 봐야 합니다. 속도만 볼 게 아니라 프로그램 용이성, 정확도, 모델 크기, 처리량, 효율성, 학습 속도까지 모두 봐야 한다는 소리입니다.



위 7가지 요소를 사내에서 모두 직접 챙기는 것은 불가능에 가깝습니다. 살펴야 할 것이 너무 많고, 각 요소에 대한 전문 지식도 갖추어야 합니다. 사내에 AI 어벤저스 팀이 있다면 모를까, 인퍼런싱 성능 최적화는 쉽게 도전할 그런 일이 아닙니다. 그렇다고 인퍼런싱 성능 개선을 포기할 수는 없습니다. 비용, 효율, 사용자 경험 등 여러 측면에 끼치는 영향이 크기 때문입니다. 이런 기업의 고민을 해결하기 위해 NVIDIA가 내놓은 것이 TensorRT입니다. TensorRT는 일종의 SDK이자 툴킷으로 인퍼런스 옵티마이저, 런타임 엔진 등을 제공하여 위에 소개한 7가지 요소에 대한 전문 지식 없이도 고성능 딥러닝 인퍼런싱을 수행할 수 있도록 합니다.



NVIDIA는 프로덕션 데이터센터 환경에서 TensorRT를 더 유연하고 편리하게 사용할 수 있도록 사전에 최적화된 형태의 서버인 NVIDIA TensorRT Hyperscale Inference Platform을 제공합니다. 이 플랫폼의 핵심은 강력한 튜링 텐서 코어를 장착한 NVIDIA T4입니다.


NVIDIA TensorRT Hyperscale Inference Platform 기반 서버를 배치하면 실시간 인퍼런싱 성능을 극대화할 수 있고, 여러 개의 모델을 GPU 노드마다 신속하게 배포하고 관리할 수 있습니다. 이를 통해 얻을 수 있는 혜택은? 각자의 역할에 따라 조금 다릅니다. 개발자는 코드에 집중할 수 있고, 엔지니어는 DevOps의 이점을 누릴 수 있고, 데이터 과학자는 모델에 집중할 수 있습니다.



NVIDIA TensorRT Hyperscale Inference Platform 기반 서버를 Kubeflow와 연계해 사용하면 컨테이너 환경에서 엔드투엔드 측면의 파이프라인 관리까지 가능합니다. 이에 대한 더 자세한 사항은 유클릭으로 문의 바랍니다.


조회수 1,249회댓글 0개
bottom of page