top of page

성우 없이도 오디오 북을 척척 만들어 주는 AI

한국은 오디오북이 그리 큰 인기가 없지만, 미국은 다르죠. 운전하는 시간이 상대적으로 길다 보니 미국은 오디오북 시장이 발달했습니다. 미국의 경우 한해 1백만 권의 책이 출판됩니다. 이 중 오디오북으로 제작되는 것은 4만권입니다. 시장 수요보다 오디오북 숫자가 좀 작게 느껴질 것입니다. 그 이유는 비용이 많이 들어서입니다. 출판사는 잘 팔릴 것 같은 책만 골라 오디오북을 만듭니다. 베스트 셀러가 아닌 이상 개인 취향의 영역에 놓인 장르의 책들은 오디오북을 사고 싶어도 없어서 구할 수 없죠.



이런 문제를 기술로 해결하겠다고 나선 업체가 있습니다. 주인공은 영국 출신 스타트업인 DeepZen 입니다. 이 회사가 만든 것은 딥러닝을 활용해 텍스트로 쓰인 책의 오디오북을 만들어 주는 것입니다. 전통적인 오디오북 제작 방식은 성우를 구하고, 스튜디오를 예약해 녹음하는 것입니다. 돈이 많이 들 수밖에 없는데요, 성우 음성을 녹음하지 않고도 비슷한 수준의 오디오북을 만들 수 있다는 것이 DeepZen의 경쟁력입니다.

기술에 관심이 많은 분은 Text-to-Speech 기술로 되는 것 아냐? 이런 생각 하실 것입니다. TTS의 경우 각종 서점 앱이나 이북앱에서 이미 지원합니다. 머 이것도 충분히 들을만 합니다. 하지만 기계가 읽은 느낌은 어쩔 수 없죠.

DeepZen의 샘플 녹음을 보면 일반적인 TTS 수준을 넘어선다는 것을 바로 알 수 있습니다. 감정 섞어 읽는 성우의 느낌 그 느낌 그대로 전달이 됩니다.

일단 한번 들어 보시죠.


DeepZen은 구글 클라우드를 통해 NVIDIA P100과 V100 인스턴스를 생성한 다음 cuDNN 가속 기반 PyTorch와 Tensorflow 딥러닝 프레임워크 환경을 조성해 모델 개발과 트레이닝을 했다고 합니다. 또한 신속한 개발을 위해 NGC 컨테이너 레지스트리를 활용했다고 하네요.

더 자세한 내용은 DeepZen 페이지를 참조 바랍니다.

조회수 127회댓글 0개
bottom of page