본문 바로가기

전체 글101

Lecture 1. Neural Networks Early models of human cognition * 플라톤, 흄, 파블로브 드은 인간이 association을 통해 학습을 한다고 주장하였다. * 관련있는 현상들을 연관지음으로서 인간은 학습하게 된다. * 그러핟면 이렇게 학습된 내용들을 뇌에 어떤 방식으로 저장하게 될까? 바로 neuron간의 connection을 통해서이다. Connectionism Alexander Bain(1873) * Alexander Bain은 1873년에 The information is in the connections 논문을 발표하였다. * Bain의 아이디어는 이러하다. 1) 뉴런들은 서로를 자극하며 여러가지 input들의 조합을 통해 여러가지 output을 도출해낼 수 있다. 이 때 강도(intensity)에 .. 2022. 2. 26.
BERT(Bidirectional Encoder Representations form Transformers) Intro * BERT는 transformer를 이용해 구현되었으며, wikipedia(25억 단어)와 bookscorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다. * trasnformer로 구현된 모델이기 때문에 transformer에 대한 사전 지식이 필요하다. 이전에 transformer에 대해 정리해 둔 글이 있으니 참고하길 바란다. https://soki.tistory.com/97 Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, RNN을 제거하고 attention을 사용한 모델이다. * 처음에 transformer에 대한 개괄적인 설명을 보고 여기서 RNN을 제거하고 attention을 .. 2022. 2. 20.
Transformer Intro * Transformer는 seq2seq의 encoder, decoder를 차용하되, RNN을 제거하고 attention을 사용한 모델이다. * 처음에 transformer에 대한 개괄적인 설명을 보고 여기서 RNN을 제거하고 attention을 사용한 이유가 뭘까 궁금했다. RNN은 시간 방향으로 하나씩 처리를 하기 때문에 GPU를 활용한 병렬처리가 어렵다. 반면 attention은 time step에 따라 입력 데이터를 처리하지 않고, 입력 데이터를 한 번에 받아(예를 들어 'I have a macbook'이라는 문장을 한 번에 입력받음) 행렬을 사용해 한 번에 처리한다. * 물론 자세한 구조에 대해 이해하지 않은 상태에서 이런 설명은 와닿지 않겠지만, 정리하자면 'RNN은 시점에 따라 입.. 2022. 2. 20.
어텐션(Attention) 어텐션의 구조 seq2seq의 문제점 * seq2seq의 encoder는 고정 길이 벡터를(hidden state vector) decoder에 넘겨주게 된다. 이 때 hidden state vector로는 문장의 길이와 상관 없이 특정 길이의 벡터만 사용해야 된다. 이는 문장 정보를 vector에 충분히 담지 못하게 되는 문제를 야기한다. Encoder 개선 * 마지막 time step의 hidden state vector만 decoder에 넘겨주는 것이 아니라 매 time step의 hidden state vector를 모두 decoder에게 넘겨주면 된다. 이 때 각 time step에서 출력된 vector들은 하나의 행렬로서 decoder에게 전달된다. 이를 통해 고정길이 벡터라는 제한을 넘어설 .. 2022. 2. 18.