본문 바로가기

분류 전체보기72

[VCR] From Recognition to Cognition: Visual Commonsense Reasoning 논문 이해 From Recognition to Cognition: Visual Commonsense Reasoning은 CVPR 2019 (oral)에 게재된 논문으로, Visual Commonsense Reasoning (VCR) task를 새로 제안하고 그에 대한 데이터셋과 추론 모델을 제안한다. 이 포스팅은 task 정의와 데이터셋 생성까지만 다룬다.VCR 이란?특정 상황에 대한 이미지와 이에 대한 질문이 주어지면, 정확한 대답과 함께 정당한 근거를 제시해야 하는 task이다. 논문에서는 해당 task를 다음과 같이 정의한다.Given an image, a machine must answer a question that requires a thorough understanding of the visual wo.. 2021. 7. 11.
[Voice conversion] 음성 초짜 입장에서 이해하는 Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations 논문 리뷰 VC Non-parallel Voice conversion task에 대한 논문 Non-Parallel Sequence-to-Sequence Voice Conversion with Disentangled Linguistic and Speaker Representations을 리뷰하고자 한다. 필자는 현재 비전 분야를 연구 중이지만, 필요에 의해 읽어보았다. 이 분야를 잘 모르는 사람으로써 이해하고자 노력한 글이기에 음성 분야를 많이 접해보지 않은 사람들이 읽기를 권장한다.사전 지식Voice Conversion (VC)은 source speaker의 입력 음성을 말의 의미 (linguistic content) 변화 없이 마치 target speaker가 말하는 것처럼 만드는 task다. VC는 데이터 조건.. 2020. 12. 1.
React.js를 사용한 웹 애플리케이션(SPA) 프론트앤드 만들기(5) - 리덕스 상태 관리, 상태에 따라 요소 나타내기 글 시작 전...블로그의 글 종류를 보시면 알겠지만, 프론트엔드 쪽은 안 한지 오래고 대학원에서 인공지능을 연구하고 있습니다. 저는 제가 공부한 지식이 시간이 흘러 사라지는 것이 싫어 흔적으로 남기고자 시작하게 되었습니다. 그래서 제가 보통 시리즈 글을 쓰다가 마는 경향이 많은데 그 이유가 이 블로그의 방향은 제 공부 방향에 따라 바뀌기 때문입니다. 4편을 쓴지 꽤 되었는데 최근에 다음 편에 대한 문의가 계속되기도 하고 조회수가 지속적으로 있는 걸 보니 따라하시다가 다음 편이 없어서 허탈해하시는 분들도 계실 것 같습니다. 그래서 다시 공부해서 작성합니다만 기본 프로젝트이더라도 최신 경향과는 다소 차이가 있을 수 있음을 감안해주셨으면 합니다. 혹시 기다리셨던 분들께는 죄송하다는 말씀드립니다.1편에서 마지막.. 2020. 11. 23.
[NLP] Transformer 모델 분석 (Self-Attention) transformer 현재 Attention is All you Need는 NLP를 한다면 반드시 읽어야 될 논문일 뿐만 아니라 인공지능을 연구한다면 반드시 읽어봐야 할 논문이 되었다. 꽤 오래 전에 읽고 정리해놓은 내용을 기억을 상기시킬 겸 포스팅한다. 이미 수많은 블로그에서 자세히 포스팅되어있으니 요약본 느낌으로 간단히 설명하고자 한다. 거의 모든 그림 및 내용은 http://jalammar.github.io/illustrated-transformer/ 을 참고하였다. 추가적으로 NLP의 다른 기본 내용을 좀 더 쉽게 이해하고자 한다면 이 글을 읽어보는 것을 추천한다.Overview해당 논문에서 나오는 Transformer 모델을 high-level에서 먼저 살펴보자. 일단 다음과 같은 Encoder.. 2020. 10. 11.
[Image inpainting] Gated Convolution 논문 리뷰 Gated_Convolution Image inpainting task는 이미지 상 손실된 부분을 복원하는 task로, 손실된 부분에 대한 mask 정보가 존재하면 그 부분을 주로 unmasked pixels과 contextual 정보를 참고하여 자연스럽게 채워넣게 된다.Image inpainting 관련하여 많은 논문들이 있지만, 가장 기본이 되는 다음 세 논문 중 Gated Convolution에 대해 다루어보려 한다.(1) Image Inpainting for Irregular Holes Using Partial Convolutions (2) Generative Image Inpainting with Contextual Attention (3) Free-Form Image Inpainting wit.. 2020. 9. 2.
[AI] 그림으로 보는 normalization 기법 normalization Normalization methods를 공부하다가 항상 보는 그림이 있다.위 그림은 Normalization을 설명할 때 빠지지 않고 나오는 그림이지만, 처음 보는 사람은 굉장히 이상하다고 생각할 수 있다. 왜냐하면 feature map의 크기를 결정하는 parameter가 (N, C, H, W)와 같이 4개로 구성되는데 이를 3차원으로 나타내려니 당연히 1개 차원을 생략하여 그릴 수 밖에 없는 것이다. 그래서 H, W를 1차원으로 줄여서 그려 우리가 일반적으로 보는 시각과 조금 달라 이해하기 쉽지 않다. 그래서 이해하기 쉽게 그림을 다시 만들어봤다. 위 그림의 왼쪽 feature map에서 파란 색으로 색칠된 부분이 오른쪽 feature map과 동일한 부분이다. 즉, bat.. 2020. 5. 14.
[Ubuntu] 네트워크 연결 자동 재시도 현재 Ubuntu 18.04 LTS를 사용하고 있는데 네트워크 연결이 매우 불안정하다.윈도우로 부팅했을 때는 네트워크가 끊김이 없기 때문에 OS 문제라고 생각하는데 세부 원인을 도저히 모르겠다.조금 찾아보니까 18.04에서 네트워크 이슈가 조금 있는 것 같은데 그 때문인지 아니면 듀얼 부팅을 사용하기 때문일 수도 있겠다.5번 재설치에도 해당 현상이 반복해서 발생했기 때문에 나만의 방법을 찾아냈다. 바로 네트워크 연결을 끊었다가 다시 연결하면 인터넷이 되는 것인데 이걸 수동으로 계속하자니 너무 귀찮았다. 그래서 스크립트를 짜서 사용하고 있는데 나는 나름 편리하게 사용하고 있다. Best는 해당 현상을 해결하는 것인데 잘 안 되니 최대한 덜 귀찮게 한 것이다. 먼저, 다음 명령을 입력하여 connection.. 2020. 4. 22.
[PyQt5] Pytorch3D를 이용한 Mesh Viewer 구현 Pytorch 3D 라이브러리를 연구에 사용하기 위해 미리 익혀보고자 간단한 Mesh Viewer를 만들었다.마우스 드래그를 이용해 객체 회전이 가능하며, 마우스 휠을 이용해 객체 확대/축소가 가능하다.현재는 카메라를 이용한 것만 있지만, 추후 light 조정, texture mapping 등을 추가할 예정이다. 4/23 키보드를 이용한 조명 위치 변경 추가 코드는 다음과 같다.https://github.com/yeongjoonJu/Mesh-Viewer-using-pytorch3d 2020. 4. 13.
[Ubuntu] Ubuntu 설치 및 포맷 후 설정 총 정리 (+python 개발 환경) Ubuntu 18.04 LTS에서 이상 없음. 1. 네트워크 설정https://www.lesstif.com/pages/viewpage.action?pageId=61899302 - 고정 IP 설정2. Graphic driver 설치https://www.cyberciti.biz/faq/ubuntu-linux-install-nvidia-driver-latest-proprietary-driver/ - 앞 내용만 봐도 됨3. Anaconda 설치 https://www.anaconda.com/distribution/ - 다운 후 bash 명령어로 설치4. Visual Code 설치https://code.visualstudio.com/ - .deb 다운 후 dpkg -i 명령어로 설치5. 한영 변환 및 한글 입력ht.. 2020. 3. 20.
[3D face] Generating 3D faces using Convolutional Mesh Autoencoders (COMA) 리뷰 1편 coma_1 Graph CNN을 이용한 3D face generation 논문인 Generating 3D faces using Convolutional Mesh Autoencoders에 대한 리뷰이다. 여기서 제안된 모델인 Convolutional Mesh Autoencoders를 줄여 COMA라고 부른다.Abstract이전의 전통적인 모델들은 선형 부분공간을 사용한 얼굴의 latent representation 혹은 고차원 텐서(higher-order tensor) 일반화를 학습했다. 그러나 이 선형성(linearity) 때문에, 극적인 변형(extreme deformations)과 비선형 expression을 캐치할 수 없다. 이것을 해결하기 위해, mesh 표면에서 spectral convoluti.. 2020. 3. 8.