top of page

넷플릭스의 AI 기반 자막 번역 시스템 'Black Box Machine Translation'

넷플릭스에서 개념 검증(PoC; Proop of Concept) 측면에서 개발한 AI 기반 자막 번역 시스템 관련 논문이 공개되었습니다. 이 시스템의 이름은 'Black Box Machine Translation'입니다. 넷플릭스가 매우 자신 있어 하는 것 같습니다. 시스템 이름에 블랙박스란 단어를 쓴 것을 보면 번역의 자동화 수준이 매우 높은 것으로 보입니다.


Black Box Machine Translation 시스템은 넷플릭스의 필요에 의해 개발되었습니다. 넷플릭스는 전 세계 시청자를 대상으로 컨텐츠 스트리밍 서비스를 제공합니다. 넷플릭스 오리지널 시리즈부터 영화, 드라마 등 볼 거리가 많죠. 전 세계를 대상으로 서비스하는 만큼 자막 작업은 넷플릭스가 매우 신경 쓰는 것 중 하나입니다. 한국의 경우도 넷플릭스 자막 작업을 전담하는 현지 파트너가 있습니다.


Black Box Machine Translation 시스템은 현재 수준의 자막 품질을 유지하는 가운데 자막 번역 관련 시간을 줄이기 위한 대안이라 볼 수 있습니다. 이 시스템은 자동 번역기와 같다고 보면 됩니다. 원작의 언어를 한국어, 러시아어, 스페인어 등 다국어 자막으로 번역하는 것이 역할입니다.


Black Box Machine Translation 시스템의 아이디어는 '단순화'에 있습니다. 영화나 드라마의 경우 구어체가 쓰입니다. 문어체와 달리 구어체는 표현이 매우 다양합니다. 넷플릭스가 주목한 단순화는 숙어집을 뒤져야 알아들을 수 있는 그런 표현에 쓰인 단어를 보편적인 단어로 바꾸는 것입니다. 또한, 거리나 무게 등도 세계 표준에 맞게 단위를 바꿉니다.



이를 위해 개발한 것이 Word-Piece 알고리즘입니다. 이 알고리즘을 넷플릭스가 개발한 APP(automatic porceccing) 모델에 적용하면 위와 같이 원래 표현이 단순화된 내용으로 바뀝니다. 참고로 넷플릭스 연구팀은 TensorFlow 상에서 tensor2tensor7 라이브러리를 이용해 트레이닝을 하였습니다. 하드웨어는 NVIDIA V100 GPU가 장착된 시스템이 쓰였습니다. 한번 전처리를 한 다음 번역이 이루어지게 하는 것이 Black Box Machine Translation 시스템의 핵심 아이디어입니다. 넷플릭스의 이번 연구는 NLP(Natural Language Processing) 기술을 자막 처리 부문에 적용한 것이란 점에서 흥미로운데요, 더 자세한 내용은 논문을 참조 바랍니다. #넷플릭스 #넷플릭스_자막 #넷플릭스_AI #AI_자막 #NLP_넷플릭스 #NLP #넷플릭스_번역 #NVIDIA_V100 #TensorFlow

조회수 633회댓글 0개
bottom of page