multimodal1 [VCR] From Recognition to Cognition: Visual Commonsense Reasoning 논문 이해 From Recognition to Cognition: Visual Commonsense Reasoning은 CVPR 2019 (oral)에 게재된 논문으로, Visual Commonsense Reasoning (VCR) task를 새로 제안하고 그에 대한 데이터셋과 추론 모델을 제안한다. 이 포스팅은 task 정의와 데이터셋 생성까지만 다룬다.VCR 이란?특정 상황에 대한 이미지와 이에 대한 질문이 주어지면, 정확한 대답과 함께 정당한 근거를 제시해야 하는 task이다. 논문에서는 해당 task를 다음과 같이 정의한다.Given an image, a machine must answer a question that requires a thorough understanding of the visual wo.. 2021. 7. 11. 이전 1 다음