Deep Learning71 Entropy, KL Divergence, Cross Entropy 한방정리 https://www.youtube.com/watch?v=Dc0PQlNQhGY 너무 훌륭한 정리 영상을 유튜브에서 보고 참고해서 작성합니다. 더 자세한 강의는 해당 유튜브 링크를 참조해주세요! Entropy의 정의 * Entropy는 정보이론에서 사용되는 용어로 '놀라움의 정도'로 표현 가능하다. * 해가 뜨는 경우를 생각해보자. * 해가 뜨는 경우 = {'동쪽에서 뜬다', '서쪽에서 뜬다'} * 당연히 서쪽에서 뜰 확률은 매우매우매우매우 적을 것이다. * 만약 해가 서쪽에서 떴다는 관측이 주어진다면 이는 '놀라움의 정도'가 매우 크기 때문에 정보량이 높다고 볼 수 있다. * 예시에서 살펴볼 수 있듯이 '놀라움의 정도'는 발생확률의 크기와 반비례한다. * ' 발생확률이 적다 = 놀라움의 정도가 크다 = .. 2022. 10. 30. XLNet : Generalized Autogregressive Pretraining for Lanuguage Understanding(NIPS 2019) Paper link : https://arxiv.org/abs/1906.08237 1. Introduction * NLP 분야에서 unsupervised learning은 대규모 데이터를 통한 pre-training 과정과 이어지는 fine-tuning 과정을 통해 많은 성과를 이뤄냈다. * 그 중에서도 AR(Auto Regressive) modeling과, AE(Auto Encoding) 은 가장 성공적인 pre-training objectives이다. AR model * AR model은 text corpus의 확률분포를 auto regressive model을 통해 계산한다. * 만약 text sequence가 $x = (x_1, ... , x_T)$로 주어졌다고 해보자. * AR model은 li.. 2022. 5. 9. Transformer-XL : Attentive Language Models Beyond a Fixed-Length Context(ACL 2019) 이전에 trasnformer를 정리해 놓은 글이 있으니, 읽기 전에 참고 바랍니다. https://soki.tistory.com/108?category=1077319 Attention Is All You Need, NIPS 2017 - Transformer 논문 리뷰 * Attention is all you need 논문을 개인적으로 정리해봤습니다. * 중요 내용만을 뽑아 기술했으므로 원문의 의도가 본의아니게 왜곡됐을 수도 있습니다. 만약 틀린 부분이 있다면 댓글로 알려주세요. soki.tistory.com https://soki.tistory.com/97?category=1065364 Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, .. 2022. 5. 3. Deep Contextualized Word Representation, NAACL 2018 (ELMO 논문 리뷰) ELMO 논문 : https://arxiv.org/pdf/1802.05365.pdf 1. Introduction Challenges * Pre-Trained 모델을 사용하여 고품질의 word representation을 얻는 것은 다음 두 가지 challenge 때문에 어려움. 1) 단어를 사용할 때의 복잡한 특성(syntax, semantics) 2) 언어적 맥락에 따라 다양한 단어들의 사용법 ELMo(Embeddings form Language Models) Representation 소개 * 본 논문에서는 위 challenge들을 극복하는 Deep Contextualized word representation을 소개함. 소개할 방법은 existing model들에 쉽게 적용 가능함. * 본 논문에서.. 2022. 4. 29. 이전 1 2 3 4 ··· 18 다음