본문 바로가기

전처리2

[TDS] Multi-WOZ 데이터셋 Delexicalization 코드 분석 (SOLOIST) SOLOIST 논문에서 사용된 delexicalization 및 기타 전처리 과정을 코드를 통해 살펴본다. 아마 DAMD 전처리 방법과 동일하지 않을까 생각한다. SOLOIST는 Multi-WOZ 2.0 데이터를 기준으로 처리하지만, 아주 약간만 변경해서 2.1 데이터도 처리 가능하다. SOLOIST 논문에 대한 설명은 https://wdprogrammer.tistory.com/84 를 참고하자. 코드 링크는 https://github.com/pengbaolin/soloist 다.create_delex_data.pyxxxxxxxxxxdef main(): print('Create delexicalized dialogues. Get yourself a coffee, this might take a while.. 2021. 9. 8.
[Keras] 영화 리뷰 데이터로 알아보는 시퀀스 데이터 2018-12-26-keras-sequence-data-imdb 1. 시퀀스(Sequence), 시계열 데이터시퀀스(Sequence) 데이터는 쉽게 말하자면, 순서가 있는 데이터다. 하지만, 순서가 있다는 것이 정렬되었다는 의미는 아니다. 예를 들어 대표적인 시퀀스 데이터인 문자열을 살펴보자. "안녕하세요" 라는 문자열은 '안', '녕', '하', '세', '요' 의 순서를 유지해야 그 뜻이 유지된다. 만약 순서가 뒤바뀌어 "녕안세하요" 라고 하면 동일한 데이터라고 볼 수 없는 것이다. 비디오 데이터도 마찬가지다. 비디오 데이터셋은 (samples, frames, height, width, cmap)의 5D 텐서로 나타낼 수 있는데 여기서 frame 순서가 뒤바뀌면 안 되므로 시퀀스 데이터다. 만약 순서.. 2018. 12. 26.