본문 바로가기

Deep Learning71

Attention Is All You Need, NIPS 2017 - Transformer 논문 리뷰 * Attention is all you need 논문을 개인적으로 정리해봤습니다. * 중요 내용만을 뽑아 기술했으므로 원문의 의도가 본의아니게 왜곡됐을 수도 있습니다. 만약 틀린 부분이 있다면 댓글로 알려주세요. 1. Introduction 기존의 연구 * RNN, LSTM, GRU 등은 language modeling, 기계번역 등에서 많은 성과를 이뤄냈다. * 하지만 이러한 Recurrent model은 time에 따라 hidden state를 생성하며 이 때 이전 timestep의 hidden state와 현재 timestep의 input을 활용하기 때문에 문제가 발생한다. 하지만 이러한 sequential한 모델은 큰 문제점이 있다. 이는 아래와 같다. 문제 1) 훈련 example들을 병렬화하.. 2022. 4. 3.
Lecture 1. Neural Networks Early models of human cognition * 플라톤, 흄, 파블로브 드은 인간이 association을 통해 학습을 한다고 주장하였다. * 관련있는 현상들을 연관지음으로서 인간은 학습하게 된다. * 그러핟면 이렇게 학습된 내용들을 뇌에 어떤 방식으로 저장하게 될까? 바로 neuron간의 connection을 통해서이다. Connectionism Alexander Bain(1873) * Alexander Bain은 1873년에 The information is in the connections 논문을 발표하였다. * Bain의 아이디어는 이러하다. 1) 뉴런들은 서로를 자극하며 여러가지 input들의 조합을 통해 여러가지 output을 도출해낼 수 있다. 이 때 강도(intensity)에 .. 2022. 2. 26.
BERT(Bidirectional Encoder Representations form Transformers) Intro * BERT는 transformer를 이용해 구현되었으며, wikipedia(25억 단어)와 bookscorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. * trasnformer로 구현된 모델이기 때문에 transformer에 대한 사전 지식이 필요하다. 이전에 transformer에 대해 정리해 둔 글이 있으니 참고하길 바란다. https://soki.tistory.com/97 Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, RNN을 제거하고 attention을 사용한 모델이다. * 처음에 transformer에 대한 개괄적인 설명을 보고 여기서 RNN을 제거하고 attention을 .. 2022. 2. 20.
Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, RNN을 제거하고 attention을 사용한 모델이다. * 처음에 transformer에 대한 개괄적인 설명을 보고 여기서 RNN을 제거하고 attention을 사용한 이유가 뭘까 궁금했다. RNN은 시간 방향으로 하나씩 처리를 하기 때문에 GPU를 활용한 병렬처리가 어렵다. 반면 attention은 time step에 따라 입력 데이터를 처리하지 않고, 입력 데이터를 한 번에 받아(예를 들어 'I have a macbook'이라는 문장을 한 번에 입력받음) 행렬을 사용해 한 번에 처리한다. * 물론 자세한 구조에 대해 이해하지 않은 상태에서 이런 설명은 와닿지 않겠지만, 정리하자면 'RNN은 시점에 따라 입.. 2022. 2. 20.