모델을 만들고 나면 트레이닝을 거치면서 모델 최적화를 합니다. 그러고 나서 할 일은 인퍼런스(Inference) 환경을 꾸리는 것이죠. 실제 운영 환경에 모델을 배포할 때 고려해야 할 것 중 하나는 GPU 자원을 알뜰살뜰하게 잘 활용할 수 있는 환경을 조성하는 것입니다. 이기종 GPU로 구성된 인프라 환경에서 최적의 성능과 자원 활용률을 끌어내는 작업은 온프레미스이건 클라우드이건 시간이 좀 걸리는 작업이죠. 이를 간단히 할 수 있게 돕는 것이 바로 NVIDIA TensorRT Inference Server입니다. 이 플랫폼은 NVIDIA 도커를 토대로 운영되는 데요, 고성능 인퍼런스를 위한 모든 것이 컨테이너에 담겨 있습니다. 이를 활용하면 이기종 GPU와 CPU 인프라 환경에서 매우 유연하게 인퍼런스 모델을 배포할 수 있습니다.
NVIDIA는 TensorRT Inference Server를 2018년 9월에 소개했는데요, 11월에 이를 오픈 소스로 공개했습니다. 프로덕션 환경에 바로 적용할 수 수준의 인퍼런스 플랫폼을 오픈 소스로 풀어 놓은 것이죠. 이에 따라 인퍼런스 모델 배포 관련해 기업과 연구소에서 각자 입맛에 맞게 TensorRT Inference Server를 커스터마이징 하여 사용하기 간편해졌습니다. 몇 가지 예를 들어 보겠습니다. 먼저 데이터 과학자나 개발자는 프리 프로세싱과 포스트 프로세싱 관련해 TensorRT Inference Server를 커스터마이징 할 수 있습니다. 가령 비디오 디코딩, 피처(Feature) 확장 등을 전 처리나 후 처리 과정에 간편하게 적용할 수 있습니다. 다음으로 데이터 과학자나 개발자는 TensorRT Inference Server에 원하는 프레임워크를 자유롭게 통합할 수 있습니다. 참고로 TensorRT Inference Server의 경우 TensorFlow, TensorRT, Caffe2 등 널리 쓰이는 프레임워크를 두루 지원합니다. 더 자세한 내용은 TensorRT Inference Server 문서를 참조 바랍니다.
Comments