top of page

언어로 묘사한 내용을 토대로 그림을 생성하는 AI 모델 'Text2Scene'

텍스트로 쓴 문장을 그림으로 그린다? IBM과 버지니아 대학의 연구원이 언어로 표현한 내용에서 객체와 속성을 끌어내어 이미지를 생성하는 모델을 만들어 관련 논문을 발표했습니다. 이 모델의 이름은 'Text2Scene'입니다.


Text2Scene 모델이 특별한 이유는 널리 쓰이는 GANs를 사용하지 않고 다른 방법론으로 접근했다는 것입니다. 이 모델은 시각적인 언어 표현을 해석해 장면을 묘사합니다. 연구원은 구글 클라우드 플랫폼이 제공하는 NVIDIA Tesla P100 GPU 기반 인스턴스를 사용했습니다. PyTorch 프레임워크를 이용해 모델을 만들었고, 이 환경에서 텍스트 인코더, 이미지 인코더, 속성 인코더, attention 모듈, convonlutinal recurrent 모듈 등을 트레이닝했습니다.



Text2Scene 모델을 이용하면 만화 같은 장면부터 다양한 형식으로 합성된 이미지를 만들 수 있다고 합니다.


예를 들면 다음과 같이 객체 탐지, 키포인트 탐지 등을 위한 COCO 데이터셋 및 합성 이미지 생성을 위한 시맨틱 레이아웃도 생성합니다.




Text2Scene 모델은 미국 캘리포니아 롱비치에서 열린 컴퓨터 시각 및 패턴 인식 컨퍼런스에서 발표되어 화제를 모았다고 합니다. 더 자세한 내용은 논문 또는 다음 요약 자료를 참조 바랍니다.


조회수 303회댓글 0개
bottom of page