본문 바로가기

NLP20

[Dialogue] GPT-2, BART로 대화 생성 모델 설계 구조 GPT2와 BART로 대화 생성 모델을 학습하는 방법에 대해 설명하겠다.여기서 두 화자 간 대화 모델을 가정하고 설명한다. 특히, user의 말에 system이 응답해주는 식이다. 다음 대화를 각 모델이 어떻게 입력으로 받아들이고 어떤 label을 취하는지 살펴보겠다.예시 대화xxxxxxxxxxUser: Hello, I need your help.System: What do you want?User: Can you speak Korean?System: A little bitGPT-2GPT는 autoregressive model이다. 따라서 현재 output이 다음 input token이 된다. 그러나 학습 시에는 한 번에 학습하기 위해 teacher forcing 방식을 사용한다. 따라서 다음과 같은 형.. 2021. 11. 10.
[TDS] Multi-WOZ 데이터셋 Delexicalization 코드 분석 (SOLOIST) SOLOIST 논문에서 사용된 delexicalization 및 기타 전처리 과정을 코드를 통해 살펴본다. 아마 DAMD 전처리 방법과 동일하지 않을까 생각한다. SOLOIST는 Multi-WOZ 2.0 데이터를 기준으로 처리하지만, 아주 약간만 변경해서 2.1 데이터도 처리 가능하다. SOLOIST 논문에 대한 설명은 https://wdprogrammer.tistory.com/84 를 참고하자. 코드 링크는 https://github.com/pengbaolin/soloist 다.create_delex_data.pyxxxxxxxxxxdef main(): print('Create delexicalized dialogues. Get yourself a coffee, this might take a while.. 2021. 9. 8.
[TDS] MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems의 이해 이 글은 MinTL: Minimalist Transfer Learning for Task-Oriented Dialogue Systems의 방법론 이해를 위한 글이다.Abstract대화 시스템 학습을 위해 데이터를 수집하고 annotation하는 건 시간이 많이 들고 도메인 간 호환도 잘 안 된다. 그래서 human supervision을 줄이기 위해 pre-trained language model을 이용한다. 이전의 TDS는 보통 특정 task에 특화된 여러 모듈로 이루어져있고 그러한 모듈은 pre-training stage를 거의 거치지 않는다. 이렇다보니 pre-trained LM을 다른 대화 tasks에 적응시키기 위해 tasks-specific 아키텍쳐 수정이 필요하다. MinTL (Minimal.. 2021. 9. 7.
[TDS] A Tailored Pre-Training Model for Task-Oriented Dialog Generation (PRAL)에 대한 이해 이 글은 ACL 2021에 게재된 A Tailored Pre-Training Model for Task-Oriented Dialog Generation (PRAL)의 방법론 이해를 위한 글이다.AbstractMotivation : TDS를 build하는 현재 접근들은 여전히 상당한 양의 annotations을 요구해 노동력을 많이 요구한다. 그래서 더 적은 supervision을 위해 large-scale language models로 대화 시스템을 개발하는 쪽으로 많은 연구들이 있었다. 그러나 LM을 대화 시스템에 적용하기엔 많은 한계점들이 있다.1) 대화 시스템을 위한 LM pre-training은 엄청난 양의 훈련 corpora를 요구하지만 고품질의 다양한 대화 데이터를 얻는 건 항상 어렵다.2) .. 2021. 9. 5.
[TDS] Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models (ARDM) 논문에 대한 이해 이 글은 Alternating Recurrent Dialog Model with Large-scale Pre-trained Language Models (ARDM)의 방법론 이해를 위한 글이다. 이 논문은 2019년에 공개됐지만 EACL 2021에 게재되었다.Abstract존재하는 dialog system 모델들은 extensive human annotations을 요구하고 다른 tasks에 일반화하는 것이 어렵다. 이 논문에서는 simple, general, and effective framework: Alternating Recurrent Dialog Model (ARDM)을 제안한다. ARDM은 각 speaker를 따로 모델링하고 large pre-trained LM의 이점을 취한다. 이는 효과적인.. 2021. 9. 3.
[TDS] SOLOIST: Building Task Bots at Scale에 대한 이해 이 글은 논문 SOLOIST: Building Task Bots at Scale with Transfer Learning and Machine Teaching 이해를 위한 글이다.AbstractSOLOIST는 대규모 task bots을 build하기 위해 transfer learning과 machine teaching을 사용한다. 또한, 고전적인 modular TDS를 단일 neural model인 Transformer-based auto-regressive language model로 파라미터화한다. 여러 유형의 dialog corpora에 pre-trained 모델은 machine teaching을 거친 약간의 task-specific dialogs만으로 새로운 tasks를 성취하도록 효율적으로 적응.. 2021. 9. 2.
[TDS] SimpleTOD에 대한 이해 (End-to-end TDS) 이 글은 SimpleTOD (A Simple Language Model for Task-Oriented Dialogue)의 방법론 이해를 위한 글이다.AbstractTask-Oriented dialogue systems은 주로 세 가지 subtasks(e.g., NLU, DST, NLG)로 분해되어 해결되었었다. 간단하고 통합된 접근으로 SoTA 성능을 달성하기 위해, 모든 sub-tasks를 single sequence prediction 문제로 recast해 훈련된 단일 causal LM인 SimpleTOD를 이용하여 task-oriented dialogue 접근을 간단히 한다. 또한, SimpleTOD는 GPT-2와 같은 pre-trained, open domain, causal LM으로부터 tra.. 2021. 9. 1.
논문 GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented Dialogue Systems에 대한 이해 End-to-End TDS (Task-oriented Dialogue Systems)을 위한 작업 중 하나인 GraphDialog: Integrating Graph Knowledge into End-to-End Task-Oriented Dialogue Systems (EMNLP 2020) 논문의 이해를 돕기 위한 글이다.MotivationsEnd-to-End TDS는 plain text inputs으로부터 바로 시스템 응답을 생성하는 것을 목적으로 한다. 이 시스템 위해 다음 2가지의 challenges가 남아있다.1) How to effectively incorporate external knowledge bases (KBs) into the learning framework2) How to accur.. 2021. 8. 28.
[CQG] GTM: A Generative Triple-Wise Model for Convolutional Question Generation 논문 아이디어 요약 논문 GTM: A Generative Triple-Wise Model for Conversational Question Generation 에 대한 요약이다.MotivationOpen-domain Conversational Question Generation (CQG)의 궁극적인 목표는 interactiveness를 향상시키고 conversation의 연속성을 유지시키는데 있다. CQG 데이터를 보면, answer는 항상 생성될 질문 다음에 나오며 추론 중에는 사용할 수 없다. 다음 예시를 보자.Post를 P, Question를 Q, Answer를 A라 하자. 처음엔 P만을 사용해서 Q3나 Q4와 같은 분명하지 않거나(dull) 맥락에 벗어난(deviated) 질문이 주로 생성되었다. A가 Q와 P에 강.. 2021. 8. 23.
[TDS] Multi-task Learning for NLG in Task-Oriented Dialogue 논문 정리 이 글은 논문 Multi-task Learning for Natural Language Generation in Task-Oriented Dialogue에 대한 정리다.Motivation존재하는 시스템들은 현재 주어진 목표에 대한 의미적으로 정확한 응답을 제공하지만, 인간 언어의 variation과 fluency를 맞추는데 어려움을 겪고 있다. 즉, task-oriented dialogue 시스템에서 인간 응답과 구별할 수 없을 정도로 자연스러운 utterance를 생성하는 것은 아직 해결되지 않은 문제다.Goal1) Multi-task learning framework for NLG, NLG-LM2) 요청된 정보를 전달하는 high-quality 응답 생성3) Unconditional LM을 거쳐 생성.. 2021. 8. 23.