Deep Learning/논문정리6 XLNet : Generalized Autogregressive Pretraining for Lanuguage Understanding(NIPS 2019) Paper link : https://arxiv.org/abs/1906.08237 1. Introduction * NLP 분야에서 unsupervised learning은 대규모 데이터를 통한 pre-training 과정과 이어지는 fine-tuning 과정을 통해 많은 성과를 이뤄냈다. * 그 중에서도 AR(Auto Regressive) modeling과, AE(Auto Encoding) 은 가장 성공적인 pre-training objectives이다. AR model * AR model은 text corpus의 확률분포를 auto regressive model을 통해 계산한다. * 만약 text sequence가 $x = (x_1, ... , x_T)$로 주어졌다고 해보자. * AR model은 li.. 2022. 5. 9. Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context(ACL 2019) 이전에 trasnformer를 정리해 놓은 글이 있으니, 읽기 전에 참고 바랍니다. https://soki.tistory.com/108?category=1077319 Attention Is All You Need, NIPS 2017 - Transformer 논문 리뷰 * Attention is all you need 논문을 개인적으로 정리해봤습니다. * 중요 내용만을 뽑아 기술했으므로 원문의 의도가 본의아니게 왜곡됐을 수도 있습니다. 만약 틀린 부분이 있다면 댓글로 알려주세요. soki.tistory.com https://soki.tistory.com/97?category=1065364 Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, .. 2022. 5. 3. Deep Contextualized Word Representation, NAACL 2018 (ELMO 논문 리뷰) ELMO 논문 : https://arxiv.org/pdf/1802.05365.pdf 1. Introduction Challenges * Pre-Trained 모델을 사용하여 고품질의 word representation을 얻는 것은 다음 두 가지 challenge 때문에 어려움. 1) 단어를 사용할 때의 복잡한 특성(syntax, semantics) 2) 언어적 맥락에 따라 다양한 단어들의 사용법 ELMo(Embeddings form Language Models) Representation 소개 * 본 논문에서는 위 challenge들을 극복하는 Deep Contextualized word representation을 소개함. 소개할 방법은 existing model들에 쉽게 적용 가능함. * 본 논문에서.. 2022. 4. 29. Attention Is All You Need, NIPS 2017 - Transformer 논문 리뷰 * Attention is all you need 논문을 개인적으로 정리해봤습니다. * 중요 내용만을 뽑아 기술했으므로 원문의 의도가 본의아니게 왜곡됐을 수도 있습니다. 만약 틀린 부분이 있다면 댓글로 알려주세요. 1. Introduction 기존의 연구 * RNN, LSTM, GRU 등은 language modeling, 기계번역 등에서 많은 성과를 이뤄냈다. * 하지만 이러한 Recurrent model은 time에 따라 hidden state를 생성하며 이 때 이전 timestep의 hidden state와 현재 timestep의 input을 활용하기 때문에 문제가 발생한다. 하지만 이러한 sequential한 모델은 큰 문제점이 있다. 이는 아래와 같다. 문제 1) 훈련 example들을 병렬화하.. 2022. 4. 3. 이전 1 2 다음