MIT 연구팀이 사람의 음성과 객체를 동시에 인식하는 딥러닝 모델을 개발했습니다.
이 모델을 적용하면 유아 대상 컨텐츠 시장에서 흥미로운 서비스가 많이 나올 수 있을 것 같습니다.
또한, 파워포인트 등 문서를 함께 보면서 협업을 할 때 사용할 수 있는 기능으로도 유용해 보이네요.
요즘 뜨고 있는 인공 지능 스피커에도 이 기능을 좀 넣었으면 좋겠다는 생각도 듭니다.
이 모델이 하는 일은 사람이 말로 사진 속 풍경을 설명할 때 해당 객체를 사진에서 구분하는 것입니다.
연구팀은 NVIDIA TITAN Xp GPU와 cuDNN 가속 기반 PyTorch 딥러닝 프레임워크를 사용해 모델을 개발했습니다. 트레이닝을 위해 402,385개의 이미지와 캡션이 쌍으로 적용되었습니다.
이 모델의 핵심은 음성과 객체를 동시에 인식하는 것입니다. 음성 인식 관련 훈련을 위해 2,500명가량의 사람이 말하는 데이터를 사용했고, 이들이 사용한 단어 수는 대략 44,000개 정도 된다고 합니다. 이 정도면 학술 자료 아닌 이상 일상적인 스냅 사진 속에서 객체를 음성과 동시에 인식하는 데 부족함이 없어 보이네요.
留言