본문 바로가기

A·I24

[NLE] NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks 리뷰 1편 이 글은 CVPR 2022에 게재된 NLX-GPT: A Model for Natural Language Explanations in Vision and Vision-Language Tasks 리뷰다.Natural Language Explanation (NLE) 모델은 black box system의 decision making process를 자연어 문장으로 설명하는 것을 목적으로 한다. 이전 explainable 모델이라고 하면 CAM과 같이 특정 예측으로 이끄는 regions이나 tokens을 highlight하는 것에 그쳤지만 NLE는 사람이 더 이해하기 쉽도록 human-friendly, high-level and fine-grained 자연어 문장을 생성해 설명해낸다.이전 NLE의 패러다임은 다.. 2022. 5. 9.
[내 논문 리뷰] Complete Face Recovery GAN: Unsupervised Joint Face Rotation and De-Occlusion from a Single-View Image 이 글은 WACV 2022에 게재된 논문 Complete Face Recovery GAN: Unsupervised Joint Face Rotation and De-Occlusion from a Single-View Image에 대한 리뷰입니다. 지금은 다른 분야를 연구하고 있어 계속 미뤘는데 제가 쓴 논문에 대한 리뷰는 반드시 해보고 싶었던 것 중 하나입니다. 코드는 다음 repo에 공개되어 있습니다. https://github.com/yeongjoonJu/CFR-GAN GitHub - yeongjoonJu/CFR-GAN: Complete Face Recovery GAN: Unsupervised Joint Face Rotation and De-Occlusion from a Single-View I Com.. 2022. 4. 20.
[RL] Decision Transformer에 대한 이해 이 글은 논문 Decision Transformer: Reinforcement Learning via Sequence Modeling에 대한 이해를 돕기 위한 포스팅이다. 논문 외 추가적인 내용에 관한 참고 문서들은 페이지 맨 아래에 적어놓았다.Abstract이 논문은 기존의 강화학습과 달리 sequential modeling을 통한 강화학습을 이용하여 여러 문제들을 풀 수 있다는 것을 보여준다. Decision Transformer는 causally masked Transformer를 이용함으로써 Reinforcement Learning (RL)의 문제들을 sequential modeling으로 바꾼다.위 이미지는 Decision Transformer 구조를 도식화한 것으로, Return-to-go ,.. 2021. 7. 11.
[Voice conversion] 음성 초짜 입장에서 이해하는 Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations 논문 리뷰 VC Non-parallel Voice conversion task에 대한 논문 Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations을 리뷰하고자 한다. 필자는 현재 비전 분야를 연구 중이지만, 필요에 의해 읽어보았다. 이 분야를 잘 모르는 사람으로써 이해하고자 노력한 글이기에 음성 분야를 많이 접해보지 않은 사람들이 읽기를 권장한다.사전 지식Voice Conversion (VC)은 source speaker의 입력 음성을 말의 의미 (linguistic content) 변화 없이 마치 target speaker가 말하는 것처럼 만드는 task다. VC는 데이터 조건.. 2020. 12. 1.
[NLP] Transformer 모델 분석 (Self-Attention) transformer 현재 Attention is All you Need는 NLP를 한다면 반드시 읽어야 될 논문일 뿐만 아니라 인공지능을 연구한다면 반드시 읽어봐야 할 논문이 되었다. 꽤 오래 전에 읽고 정리해놓은 내용을 기억을 상기시킬 겸 포스팅한다. 이미 수많은 블로그에서 자세히 포스팅되어있으니 요약본 느낌으로 간단히 설명하고자 한다. 거의 모든 그림 및 내용은 http://jalammar.github.io/illustrated-transformer/ 을 참고하였다. 추가적으로 NLP의 다른 기본 내용을 좀 더 쉽게 이해하고자 한다면 이 글을 읽어보는 것을 추천한다.Overview해당 논문에서 나오는 Transformer 모델을 high-level에서 먼저 살펴보자. 일단 다음과 같은 Encoder.. 2020. 10. 11.
[Image inpainting] Gated Convolution 논문 리뷰 Gated_Convolution Image inpainting task는 이미지 상 손실된 부분을 복원하는 task로, 손실된 부분에 대한 mask 정보가 존재하면 그 부분을 주로 unmasked pixels과 contextual 정보를 참고하여 자연스럽게 채워넣게 된다.Image inpainting 관련하여 많은 논문들이 있지만, 가장 기본이 되는 다음 세 논문 중 Gated Convolution에 대해 다루어보려 한다.(1) Image Inpainting for Irregular Holes Using Partial Convolutions (2) Generative Image Inpainting with Contextual Attention (3) Free-Form Image Inpainting wit.. 2020. 9. 2.
[AI] 그림으로 보는 normalization 기법 normalization Normalization methods를 공부하다가 항상 보는 그림이 있다.위 그림은 Normalization을 설명할 때 빠지지 않고 나오는 그림이지만, 처음 보는 사람은 굉장히 이상하다고 생각할 수 있다. 왜냐하면 feature map의 크기를 결정하는 parameter가 (N, C, H, W)와 같이 4개로 구성되는데 이를 3차원으로 나타내려니 당연히 1개 차원을 생략하여 그릴 수 밖에 없는 것이다. 그래서 H, W를 1차원으로 줄여서 그려 우리가 일반적으로 보는 시각과 조금 달라 이해하기 쉽지 않다. 그래서 이해하기 쉽게 그림을 다시 만들어봤다. 위 그림의 왼쪽 feature map에서 파란 색으로 색칠된 부분이 오른쪽 feature map과 동일한 부분이다. 즉, bat.. 2020. 5. 14.
[3D face] Generating 3D faces using Convolutional Mesh Autoencoders (COMA) 리뷰 1편 coma_1 Graph CNN을 이용한 3D face generation 논문인 Generating 3D faces using Convolutional Mesh Autoencoders에 대한 리뷰이다. 여기서 제안된 모델인 Convolutional Mesh Autoencoders를 줄여 COMA라고 부른다.Abstract이전의 전통적인 모델들은 선형 부분공간을 사용한 얼굴의 latent representation 혹은 고차원 텐서(higher-order tensor) 일반화를 학습했다. 그러나 이 선형성(linearity) 때문에, 극적인 변형(extreme deformations)과 비선형 expression을 캐치할 수 없다. 이것을 해결하기 위해, mesh 표면에서 spectral convoluti.. 2020. 3. 8.
[3D face] Morphable Model For The Synthesis Of 3D Faces 리뷰 2편 3DMM 리뷰2 3D face reconstruction의 기초가 되는 1999년도 논문인 A Morphable Model For The Synthesis Of 3D Faces에 대한 리뷰이다.이전 글 : Morphable Model For The Synthesis Of 3D Faces 리뷰 1편Matching morphable model to images이 논문의 프레임워크의 중요 요소는 하나 이상의 이미지에 morphable face model를 자동적으로 매칭하는 알고리즘이다. 해당 알고리즘을 개략적으로 설명하자면, 3D model의 coefficients는 rendering 파라미터 집합에 따라 최적화되고, model을 통해 이미지를 생성할 때 input 이미지와 가능한 가깝게 생성하는 것이 목적.. 2020. 2. 17.
[3D face] Morphable Model For The Synthesis Of 3D Faces 리뷰 1편 3DMM 리뷰1 3D face reconstruction의 기초가 되는 1999년도 논문인 A Morphable Model For The Synthesis Of 3D Faces에 대한 리뷰이다.Introduction해당 논문은 다음 face synthesis 자동화의 한계점들을 해결하고자 하였다.The problem of finding corresponding feature locations in all facesThe problem of separating realistic faces from faces that could never appear in the real world첫 번째 문제는 모든 얼굴에 일치하는 feature location을 찾는 문제로, 정해놓은 feature points는 다른 .. 2020. 2. 14.