-
[Day91] Multimodal NLPAIFFEL Life 2020. 12. 27. 13:07
오늘은 Visual QA에 대한 내용을 배웠습니다. 어떻게 보면 궁극의 AI가 지향하는 모습이 아닐까 싶고, 이런 AI가 적용된 어플리케이션이야 말로 최첨단 기술의 집약체가 될 수 있다고 생각이 드는 주제였습니다. 영화 A.I.에 보면 돈을 내고 질문을 하면 답을 해주는 AI가 등장하죠? 마치 그런 A.I.를 만들어 내는 듯한... (영화에서는 A.I.가 좀 인간적인 모습으로 나와서 그렇지만 그렇게 자율주행과 직립보행이 가능한 로봇이 검색 시스템과 네트워크만 연결되어 있다면 그렇게 돈내고 질문할 필요가...)
QA가 텍스트로 질문하면 답하는 것이라면 Visual QA는 사진을 보여주고 그 사진에 대해 물어보는 것입니다. 몇 년전에 마이크로소프트에서 사진을 보여주면 사람이 몇명이고 뭘하고 있고 등등을 텍스트로 표현해 주는 인공지능을 개발했다는 뉴스를 본 것 같은데, 그 이상으로 빠르게 진보하고 있는 것 같습니다.
참고할 만한 자료 공유해 드립니다.
1. COCO (common object in context)
2. VQA: Visual Question Answering (paper)
3. Visual Genome
4. Flicker 8K dataset (kaggle)
www.kaggle.com/ming666/flicker8k-dataset
5. Flickr Image dataset
www.kaggle.com/hsankesara/flickr-image-dataset
6. VQA
7. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering (paper)
8. Show and Tell: A Neural Image Caption Generator (paper)
9. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (paper)
10. Dual Attention Networks for Multimodal Reasoning and Matching (paper)
'AIFFEL Life' 카테고리의 다른 글
[Day93] 노베 모임 (0) 2020.12.27 [Day92] 마지막 실습 GQA (0) 2020.12.27 [Day88~90] 해커톤 (혼돈과 UI Prototype) (0) 2020.12.27 [Day87] HuggingFace 커스텀 프로젝트를 만들어보자 (0) 2020.12.27 [Day86] NLP Framework (0) 2020.12.27