자연어 처리 관련 AI 서비스나 애플리케이션을 개발하는 곳에서 반길 소식이 발표되었습니다. 다름 아니라 NVIDIA의 TensorRT 7을 이용하면 자연어 처리 관련 모델 트레이닝과 인퍼런싱 파이프라인을 가속할 수 있습니다.
사람의 말을 알아듣고, 이에 대한 적절한 답이나 서비스를 제공하는 대화형 인공 지능 서비스나 애플리케이션을 사용자에게 제공하는 곳이 늘고 있습니다. 이는 분야를 가리지 않고 사람과 IT 기반 서비스가 상호 작용하는 인터페이스이스에 대화가 차지하는 비중이 점점 커지기 때문입니다. 키보드보다는 터치가, 터치보다는 말로 하는 게 더 편하기 때문이죠. 사용자의 음성을 인식하는 똑똑한 스피커를 거실에 놓고 원하는 음악도 틀어 달라고 하고, 가전 기기를 켜고 끄는 것은 많이들 익숙하실 것입니다. 요즘 신차는 음성으로 창문을 여닫거나, 에어컨을 켜고 끄는 것을 하죠. 지금은 물론 우리가 만족할만한 수준은 아닌 경우가 많지만, 매우 빠른 속도로 대화형 서비스에 대한 만족도가 높아질 전망입니다. 그 배경에는 TensorRT 7 같은 기술의 진보가 자리하고 있죠.
대화형 인공 지능 서비스를 위한 모델 트레이닝과 인퍼런싱 가속
대화형 인공 지능 서비스는 몇몇 요소가 연계되어 동작합니다. 먼저 음성 인식이 있을 것이고, 다음으로 주어진 질문 또는 과제에 대한 답을 제시하는 자연어 처리 요소가 있을 것입니다. 그리고 TTS(Text-to-Speech) 요소가 쓰입니다. 이를 파이프라인으로 그려보면 다음과 같습니다.
대화형 인공 지능 서비스의 파이프라인 가속이 왜 중요할까요? 네, 대화는 쌍방향성과 실시간성이란 특성을 갖기 때문입니다. 이에 따라 대화가 중간에 끊기거나, 답변이 지연되는 것이 민감합니다. 개발자는 관련해 엄격한 기준으로 허용 레이턴시 기준을 두죠. TensorRT 7을 이용해 가속을 하면 사람의 말을 더 잘 알아듣고, 더 똑똑하게 답을 하는 서비스 제공이 더 용이합니다.
10배 이상 빠른 성능으로 더 똑똑한 대화형 서비스 제공이 가능
최신 CUDA-X에 포함된 TensorRT 7을 이용하면 CPU 환경에서 대화형 인공 지능 서비스를 제공할 때보다 10배 빠른 모델 트레이닝과 인퍼런싱 성능을 확보할 수 있습니다. 이게 가능한 것은 TensorRT 7 환경에서 자연어 처리를 할 경우 컴파일 성능이 더 뛰어나고, 음성 관련 각종 모델 최적화가 더 쉽기 때문입니다. 이 외에도 ONNX(Open Neural Network Exchange) 지원이 강화되어, 음성 관련 모델을 다양한 환경에 더 유연하게 임포트할 수 있습니다. 이 밖에도 NVIDIA는 대화형 인공 지능 서비스 개발 생산성을 높이는 NeMo(Neural Modules) 툴킷도 제공합니다. PyTorch에 기반을 둔 이 툴킷은 대화형 인공 지능 모델 개발의 편의성을 높여 줍니다.
이상으로 간단히 대화형 인공 지능 모델 개발, 트레이닝, 인퍼런스 가속에 대해 알아보았습니다. 더 자세한 내용은 NVIDIA 페이지를 참조 바랍니다.
Comments