주소: 서울특별시 중구 퇴계로 286 쌍림빌딩 8/9층 (주)유클릭 디지털 트랜스포메이션 사업본부

전화: 02-6320-0121

© 2030 by uDNA & Uclick

NVIDIA TensorRT는 딥러닝 속도와 효율을 높이는 고성능 딥러닝 인퍼런스 플랫폼입니다. 이를 이용하면 딥러닝 인퍼런스 애플리케이션의 레이턴시를 최소화하고, 쓰루풋은 극대화할 수 있습니다. 데이터 과학자와 AI 애플리케이션 개발자는 TensorRT로 임베디드 장치, 자율 주행 자동차, 데이터센터에서 운영하는 대규모 서비스 등을 위해 최상의 성능을 손쉽게 확보할 수 있습니다. 

TensorRT

TensorRT는 CUDA와 NVIDIA의 병렬 프로그래밍 모델을 토대로 인퍼런싱 작업을 최적화합니다. CUDA-X AI 도구가 제공하는 다양한 라이브러리와 툴 등을 이용해 TensorFlow, MathWorks, Caffe 2, Pytorch 등 널리 쓰이는 프레임워크 환경에서 인퍼런스 작업을 최적의 상태로 수행합니다. 

​인퍼런싱 가속을 위한 가장 빠르고 확실한 방법

TensorRT를 이용하면 비디오 스트리밍, 음성 인식, 상품/서비스 추천, 자연어 처리 등 딥러닝 기반 인퍼런싱 프로그램의 배포와 운영의 최적화할 수 있습니다. 사용자 측면에서 보면 AI 응용 프로그램의 응답 시간이 빠른 쾌적한 경험을 제공합니다. 이에 따라 실시간 서비스, 자율 중용 자동차 등 첨단 AI 서비스의 요구 사항을 더 수월하게 충족할 수 있습니다. 

Weight & Activation Precision Calibration

정확도를 유지하면서 쓰루풋을 극대화합니다. 

Layer & Tensor Fusion

GPU 메모리와 대역폭을 최적화합니다. 

Kernel Auto-Tuning

GPU 플랫폼에 맞춰 데이터 레이어와 알고리즘을 선택합니다. 

Dynamic Tensor Memory

메모리 풋프린트를 최소화하고, 메모리를 효율적으로 재사용합니다. 

Multi-Stream Execution

여러 입력 스트림을 병렬로 처리하며, 유연한 확장이 가능합니다. 

TensorRT 도입 기업
  • 블랙 블로거 아이콘