[Day91] Multimodal NLP

AIFFEL Life 2020. 12. 27. 13:07

오늘은 Visual QA에 대한 내용을 배웠습니다. 어떻게 보면 궁극의 AI가 지향하는 모습이 아닐까 싶고, 이런 AI가 적용된 어플리케이션이야 말로 최첨단 기술의 집약체가 될 수 있다고 생각이 드는 주제였습니다. 영화 A.I.에 보면 돈을 내고 질문을 하면 답을 해주는 AI가 등장하죠? 마치 그런 A.I.를 만들어 내는 듯한... (영화에서는 A.I.가 좀 인간적인 모습으로 나와서 그렇지만 그렇게 자율주행과 직립보행이 가능한 로봇이 검색 시스템과 네트워크만 연결되어 있다면 그렇게 돈내고 질문할 필요가...)

QA가 텍스트로 질문하면 답하는 것이라면 Visual QA는 사진을 보여주고 그 사진에 대해 물어보는 것입니다. 몇 년전에 마이크로소프트에서 사진을 보여주면 사람이 몇명이고 뭘하고 있고 등등을 텍스트로 표현해 주는 인공지능을 개발했다는 뉴스를 본 것 같은데, 그 이상으로 빠르게 진보하고 있는 것 같습니다.

참고할 만한 자료 공유해 드립니다.

1. COCO (common object in context)

cocodataset.org/#home

COCO - Common Objects in Context

cocodataset.org

2. VQA: Visual Question Answering (paper)

arxiv.org/pdf/1505.00468.pdf

3. Visual Genome

visualgenome.org/

VisualGenome

Visual Genome is a dataset, a knowledge base, an ongoing effort to connect structured image concepts to language.

visualgenome.org

4. Flicker 8K dataset (kaggle)

www.kaggle.com/ming666/flicker8k-dataset

Flicker8k_Dataset

Contains 8092 photographs in JPEG format.

www.kaggle.com

5. Flickr Image dataset

www.kaggle.com/hsankesara/flickr-image-dataset

Flickr Image dataset

Flickr Image captioning dataset

www.kaggle.com

6. VQA

visualqa.org/download.html

VQA: Visual Question Answering

This section provides more information regarding abstract scenes' composition (e.g., the (x,y) pixel coordinates of each clipart object, left/right facing) files and abstract captions. If you are using any data (images, questions, answers, or captions) ass

visualqa.org

7. Making the V in VQA Matter: Elevating the Role of Image Understanding in Visual Question Answering (paper)

arxiv.org/pdf/1612.00837.pdf

8. Show and Tell: A Neural Image Caption Generator (paper)

arxiv.org/pdf/1411.4555.pdf

9. NEURAL MACHINE TRANSLATION BY JOINTLY LEARNING TO ALIGN AND TRANSLATE (paper)

arxiv.org/pdf/1409.0473.pdf

10. Dual Attention Networks for Multimodal Reasoning and Matching (paper)

arxiv.org/pdf/1611.00471.pdf

저작자표시 (새창열림)

'AIFFEL Life' 카테고리의 다른 글

[Day93] 노베 모임 (0)	2020.12.27
[Day92] 마지막 실습 GQA (0)	2020.12.27
[Day88~90] 해커톤 (혼돈과 UI Prototype) (0)	2020.12.27
[Day87] HuggingFace 커스텀 프로젝트를 만들어보자 (0)	2020.12.27
[Day86] NLP Framework (0)	2020.12.27

ABOUT ME

소프트웨어공학-Software Engineering 소프트웨어공학-Software Engineering

'AIFFEL Life' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'AIFFEL Life' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바