음성과 객체를 동시에 인식하는 AI ~ 사진을 읽어 주는 인공 지능

MIT 연구팀이 사람의 음성과 객체를 동시에 인식하는 딥러닝 모델을 개발했습니다.  이 모델을 적용하면 유아 대상 컨텐츠 시장에서 흥미로운 서비스가 많이 나올 수 있을 것 같습니다.  또한, 파워포인트 등 문서를 함께 보면서 협업을 할 때 사용할 수 있는 기능으로도 유용해 보이네요.  요즘 뜨고 있는 인공 지능 스피커에도 이 기능을 좀 넣었으면 좋겠다는 생각도 듭니다. 

이 모델이 하는 일은 사람이 말로 사진 속 풍경을 설명할 때 해당 객체를 사진에서 구분하는 것입니다. 

연구팀은 NVIDIA TITAN Xp GPU와 cuDNN 가속 기반 PyTorch 딥러닝 프레임워크를 사용해 모델을 개발했습니다. 트레이닝을 위해 402,385개의 이미지와 캡션이 쌍으로 적용되었습니다. 

이 모델의 핵심은 음성과 객체를 동시에 인식하는 것입니다. 음성 인식 관련 훈련을 위해 2,500명가량의 사람이 말하는 데이터를 사용했고, 이들이 사용한 단어 수는 대략 44,000개 정도 된다고 합니다. 이 정도면 학술 자료 아닌 이상 일상적인 스냅 사진 속에서 객체를 음성과 동시에 인식하는 데 부족함이 없어 보이네요. 

더 자세한 내용은 논문과 연구팀이 공개한 코드를 참조 바랍니다.




#AI논문 #음성인식 #객체인식 #NVIDIA #GPU #딥러닝

조회 0회

주소: 서울특별시 중구 퇴계로 286 쌍림빌딩 8/9층 (주)유클릭 AI 사업본부

전화: 02-6320-0121

© 2030 by uDNA & Uclick

  • 블랙 블로거 아이콘