BERT(Bidirectional Encoder Representations form Transformers)
Intro
* BERT는 transformer를 이용해 구현되었으며, wikipedia(25억 단어)와 bookscorpus(8억 단어)와 같은 레이블이 없는 텍스트 데이터로 사전 훈련된 언어 모델이다.
* trasnformer로 구현된 모델이기 때문에 transformer에 대한 사전 지식이 필요하다. 이전에 transformer에 대해 정리해 둔 글이 있으니 참고하길 바란다.
* BERT를 통해 사전훈련된 embedding을 사용하면 약간의 tuning만으로 우리가 원하는 task를 성공적으로 수행할 수 있다.
BERT의 크기
* 위에서 볼 수 있다시피 BERT는 trasnformer의 encoder를 쌓아 올린 구조이다.
* transformer의 encoder 층 수를 L, $d_{model}$의 크기(단어 vector의 차원 수)를 D, self-attention head의 수를 A라고 하였을 때 각각의 크기는 다음과 같다.
- BERT-Base : L=12, D=768, A=12 : 110Million개의 파라미터
- BERT-Large : L=24, D=1024, A=16 : 340Million개의 파라미터
BERT의 문맥을 반영한 Embedding
* BERT의 embedding은 문맥을 반영햔 embedding이다. 무슨 뜻이냐면 문장 내에서의 다른 단어들과의 관계를 반영한 embedding을 출력한다는 뜻이다. 이는 transformer의 encoder를 사용하기 때문이다.
* BERT-Base 모델의 경우 D=768이므로, 각 단어 vector는 768 차원의 vector이고, BERT-Base를 통과해 최종 출력된 단어 vector역시 768차원의 vector가 될 것이다(transformer의 encoder는 입력 vector와 출력 vector의 차원이 같다).
BERT의 subword tokenizer : WordPiece
* BERT는 subword tokenizer를 사용한다. subword tokenizer는 기본적으로 자주 등장하는 단어는 그대로 단어 집합에 추가하고, 자주 등장하지 않는 단어의 경우에는 더 작은 단위인 subword로 분리되어 subword들이 단어 집합에 추가된다는 아이디어를 사용한다.
토큰화 수행 방식
* 먼저 훈련 데이터로부터 만들어진 단어 집합을 준비한다.
1) 해당 토큰이 단어 집합에 존재할 경우 : 해당 토큰을 분리하지 않는다.
2) 토큰이 단어 집합에 존재하지 않을 경우 : 해당 토큰을 서브워드로 분리한다. 해당 토큰의 첫번째 서브워드를 제외한 나머지 서브워드들은 앞에 '##'(단어의 중간부터 등장하는 subword라는 표시)를 붙인 것을 토큰으로 한다.
예시
- 만약 embeddings라는 단어가 입력으로 들어왔는데, 사전 훈련된 단어 집합에 embeddings라는 단어가 없다고 가정해보자.
- subword tokenizer가 아닌 tokenizer의 경우 OOV(Out of Vocabulary) 문제가 발생하지만, subword tokenizer는 해당 단어를 subword들로 쪼개서 어떻게든 토큰을 생성한다.
- 단어 집합에 em, bed, ding, s와 같은 단어들이 존재한다면 입력 'embeddings'은 em, ##bed, ##ding, ##s로 분리된다.
* 실제로 어떻게 tokenizing하는지 확인해보자.
import pandas as pd
from transformers import BertTokenizer
tokenizer = BertTokenizer.from_pretrained("bert-base-uncased") # Bert-base의 토크나이저
result = tokenizer.tokenize('Here is the sentence I want embeddings for.')
print(result)
# ['here', 'is', 'the', 'sentence', 'i', 'want', 'em', '##bed', '##ding', '##s', 'for', '.']
Position Embedding
* transformer에서는 encoder, decoder의 입력시 sin, cosine함수를 사용한 position embedding을 통해 문장 내의 단어들의 위치정보를 표현하였다.
* BERT에서는 position embedding vector를 학습 가능한 벡터로서 취급한다. 때문에 BERT의 문장 최대 길이인 512개의 position embedding vector가 학습될 수 있다.
BERT의 사전 훈련
1) MLM(Masked Language Model)
* BERT는 사전 훈련을 위해 입력 텍스트의 15%의 단어들을 마스킹 하고, 모델에게 이를 예측하도록 한다.
* 단, 15%의 단어들은 모두 일괄적으로 마스킹되지 않고 다음과 같이 3가지 방법으로 변환된다.
- 80%의 단어들은 [MASK]로 변경한다.
- ex) The man went to the store → The man went to the [MASK]
- 10%의 단어들은 랜덤으로 단어가 변경된다.
- ex) The man went to the store → The man went to the dog
- 10%의 단어들은 동일하게 둔다.
- ex) The man went to the store → The man went to the store
* 그냥 모두 [MASK]로 변환하지 않는 이유는 [MASK] 토큰이 파인튜닝 단계에서는 나타나지 않기 때문에 사전 학습 단계와 파인 튜닝 단계에서의 불일치가 발생할 수 있기 때문이다.
예시)
* 'My dog is cute. he likes playing.' 이라는 예문이 있다고 해보자.
* 문장은 tokenizer에 의해 ['my', 'dog', 'is' 'cute', 'he', 'likes', 'play', '##ing'] 와 같이 토큰화 된다.
* 만약 'dog' 단어가 마스킹 되었다면, MLM classifier는 마스킹된 단어가 무엇인지를 예측한다. 이 때 Dense layer와 softmax layer를 거쳐 가장 확률이 높은 단어를 하나 뽑게 된다.
* BERT의 훈련 과정에서 손실함수에는 이 마스킹된 단어 예측에 대해서만 반영되고, 마스킹되지 않은 나머지 단어들에 대한 예측은 반영되지 않는다.
* 마스킹되지 않고 단어가 변경되었거나, 단어가 그대로이지만, 변경 대상 15%안에 들었던 단어들에 있어서도 예측을 시행하고, 손실함수에 이를 반영한다.
* playing의 경우 단어가 변경되지는 않았지만, BERT는 이 단어가 변경되었는지 여부를 모르기 때문에 원래 단어가 무엇인지 예측하게 된다.
2) 다음 문장 예측(Next Sentence Prediction, NSP)
* BERT는 마스킹되거나 변경된, 혹은 변경되지 않은 단어의 원래 단어가 무엇인지를 예측하기도 하지만, 입력된 두 문장이 이어지는지 여부도 예측해야 한다.
* 입력은 두 개의 문장으로 구성되어 있고, 5:5 비율로 실제로 이어지는 문장, 관련없는 문장이 제공된다.
* 문장 종료시 [SEP] 토큰이 등장하며 두 개의 문장을 구분해준다(두 번째 문장 종료 이후에도 [SEP]토큰이 나온다)
* [CLS] 토큰은 두 문장이 이어지는지 여부를 binary classification 하는 위치에 삽입되는 특별 토큰이다.
* 하나 주의할 점은 이 두 개의 문장이라는 예시는 문제를 간단히 하기 위한 예시일 뿐이고, 실제로는 두 종류의 text data가 될 수도 있다는 점이다. 두 종류의 text data가 입력될 경우 문장의 개수는 두개가 아니라 매우 많을 것이다.
* MLM classification과 NSP classification에 대한 예측 둘다 동일하게 손실함수에 적용된다.
Segment Embedding
* BERT의 훈련에는 두 개의 문서가 주어진다고 했었다. 각 단어가 몇 번째 문서에 속해있는지를 구분하기 위해 segment embedding layer가 존재한다. 이 segment embedding은 position embedding을 거친 vector에 scalar 값으로서 더해주게 된다.
* 만약 감성분류 task와 같이 두 개의 문서를 입력받을 필요 없는 문제의 경우 segment layer에서 0 embedding만 더해주게 된다.
BERT를 Fine tuning하기
* 실질적으로 사전훈련된 BERT를 활용하는 방법으로 우리가 원하는 task의 데이터를 추가 학습시켜서 Fine-tuning하는 법을 알아보겠다.
1) Single Text Classification
* 감성분류 등에 사용된다. [CLS] 토큰 자리에서 해당 문서의 sentiment를 분류한다. binary classification이기 때문에 dense layer를 추가할 수 있다.
2) 하나의 텍스트에 대한 태깅 작업
* 품사 tagging혹은 개체명 인식 등에 사용될 수 있다.
3) 텍스트 쌍에 대한 분류 또는 회귀 문제
* Text pair를 입력받아 두 text들이 contradiction, entailment, neutral 중 어떤 것인지에 대해 분류하는 task를 수행할 수도 있다.
4) Question Answering
* SQuAD(Stanford Question Answering Dataset)를 사용하여 질문과 본문이 주어졌을 때 본문에서 질문에대한 답을 찾는 등의 QA task를 훈련시킬 수 있다.
* 질문 : "강우가 떨어지도록 영향을 주는 것은?"
* 본문 : "기상학에서 강우는 대기 수증기가 응결되어 중력의 영향을 받고 떨어지는 것을 의미합니다. 강우의 주요 형태는 이슬비, 비, 진눈깨비, 눈, 싸락눈 및 우박이 있습니다."
* 답 : 중력
그 외 기타
* 훈련 데이터는 위키피디아(25억 단어)와 BooksCorpus(8억 단어) ≈ 33억 단어
* WordPiece 토크나이저로 토큰화를 수행 후 15% 비율에 대해서 마스크드 언어 모델 학습
* 두 문장 Sentence A와 B의 합한 길이. 즉, 최대 입력의 길이는 512로 제한
* 100만 step 훈련 ≈ (총 합 33억 단어 코퍼스에 대해 40 에포크 학습)
* 옵티마이저 : 아담(Adam)
* 학습률(learning rate) : 10−4
* 가중치 감소(Weight Decay) : L2 정규화로 0.01 적용
* 드롭 아웃 : 모든 레이어에 대해서 0.1 적용
* 활성화 함수 : relu 함수가 아닌 gelu 함수
* 배치 크기(Batch size) : 256
Attention Mask
* Attention mask는 pad token에 대해 attention을 하지 않도록 마스킹해주는 역할을 한다.