본문 바로가기
Deep Learning/Hands On Machine Learning

10.1 생물학적 뉴런에서 인공 뉴런까지

by 대소기 2021. 9. 21.

10.1.1 생물학적 뉴런

  • 시냅스 말단이라는 구조를 통해 정보를 전달받음
  • 이 정보를 신경전달물질이라는 화학적 신호로 바꾸어 다른 뉴런의 수상돌기나 세포체에 연결됨.
  • 인공 신경망의 인공 뉴런 또한 비슷한 원리로 작동함.
  • 여러 개의 input을 전달받으면 activation function을 거쳐 특정 output으로 도출해냄.
  • 여러 개의 데이터를 받아 특정 결과를 도출해낸다는 점에서 생물학적 뉴런 구조와 인공 뉴런과 상통함.

 

 

10.1.2 뉴런을 사용한 논리연산

  • 생물학적 뉴런에서 착안한 매우 단순한 신경망 모델
  • A, B는 input, C는 네트워크이다.
  • 첫 번째 네트워크는 항등함수이다.
  • 두 번째 네트워크는 논리곱 연산을 수행한다. A and B 모두 켜져있을 때 C 함수가 활성화 된다.
  • 세 번째 네트워크는 논리합 연산을 수행한다. A or B가 켜져있을 때 작동한다.
  • 네 번째 네트워크는 B가 켜져있지 않고 A가 켜질 때 활성화 된다.

 

퍼셉트론

Percetron
Heavyside Step Function

  • 퍼셉트론은 TLU(Threshold Logic Unit), LTI(Linear threshold unit)
  • Input : binary value가 아닌 연속적인 value
  • Input function 에서는 input 벡터들을 받아 선형결합을 한 값을 출력한다.
  • Activation Function에서는 heaviside step function 또는 signal function을 사용한다.
  • TLU를 훈련한다는 것은 최적의 w0, w1, w2, … wn을 찾는다는 의미.
  • 이러한 단일 퍼셉트론은 이진 분류 문제에 활용 가능하다.

 

층이 하나인 TLU(Threshold Logic Unit)

1 layer TLU

  • 완전 연결층(Fully connected layer), 밀집 층(Dense Layer) : 한 층에 있는 모든 뉴런이 이전 층에 있는 모든 뉴런과 연결되어 있음
  • 입력 뉴런 : input을 받는 뉴런. 받은 input에 어떠한 처리 없이 그대로 output으로 return한다.
  • 입력 층(input layer) : 입력 뉴런으로 구성된 층
  • 편향 뉴런(Bias neuron) : bias를 더해주는 뉴런
  • 위 그림은 2개의 input을 받아서 3개의 label로 분류해주는 multi label classifier이다.

 

완전 연결층의 출력 계산

  • 위 식은 완전연결층의 출력을 수식으로 나타낸 것이다.
  • X는 input을 뜻한다.
  • W는 bias를 제외한 모든 연결 가중치를 뜻한다.
  • 모든 인공 뉴런마다 하나의 편향 값이 존재한다.
  • $\phi$ 는 activation function을 뜻한다.

 

퍼셉트론의 훈련

  • Donald Hebb : 생물학적 뉴런 A와 B가 있다고 했을 때 A가 B를 활성화 시킬 때마다, A와 B의 연결은 더욱 강해진다.
  • Donald Hebb의 아이디어에서 영감을 받은 프랑크 로젠블라트는 위와 같은 뉴런 학습 아이디어를 제시함
  • 왼쪽 항에 있는 ${W_{i,j}}^{(next step)}$ 은 update할 가중치이다. 즉 update할 가중치를 구하는 수식이다.
  • 오른쪽 항에 있는 $W_{i,j}$ 는 현재 step의 가중치이다. 𝑖번째 뉴런과 𝑗번째 뉴런을 연결하는 가중치이다.
  • $\eta$는 학습률(Learning Rate)을 뜻한다.
  • $\hat{𝑦}$ 은 출력 뉴런의 출력값이다.
  • $y$는 훈련 샘플의 True 값, 혹은 Target값이다.

 

단층 퍼셉트론의 한계

  • 단층 퍼셉트론을 통해서는 선형 분류가 가능하다.
  • 하지만, 선형 분류를 통해 불가능한 문제가 존재했는데, 바로 XOR이다.
  • XOR문제를 풀기 위해서는 비선형 분류가 가능한 모형을 만들어야 한다.

 

10.1.4 다층 퍼셉트론과 역전파

  • 입력층, 1개 이상의 은닉층, 출력층으로 구분되어 있다.
  • 출력층을 제외하고 모든 층은 bias neuron을 포함하고 다음 층과 완전히 연결되어 있다.
  • 은닉층을 여러 개 쌓아 올린 신경망 모형을 DNN(Deep Neural Network)라고 한다.

 

다층 퍼셉트론 훈련 방법 - Backpropagation

  • 역전파는 오차를 감소시키는 방향으로 가중치를 update하는 방법이다.
  • Epoch : 가중치를 update하는 한 주기의 Loop를 뜻한다.
  • Forward pass : 가중치를 통해 target value에 대한 예측값을 구하는 단계
  • Backward pass : Forward Pass를 통해 구한 예측값으로 가중치를 update하는 단계
  • Chain rule : 역전파 과정에서 가중치 update시 사용되는 미분 기법
  • https://www.youtube.com/watch?v=aUd2MKLvDsc 참고

 

다층 퍼셉트론 Activation Function

  • 다층 퍼셉트론의 가중치 update를 위해서는 backpropagation과정을 거쳐야 하는데, 이 때 미분을 통해 기울기 계산을 해야 한다.
  • 단층 퍼셉트론에서 봤던 계단함수는 수평선 밖에 없으므로 사용할 기울기가 존재하지 않는다.
  • 때문에 ReLU나 Hyperbolic Tangent와 같은 함수를 Activation으로 사용한다. 언급한 두 가지 외에도 여러가지 activation function이 존재한다.
  • 왼쪽은 원래 함수의 그래프이고 오른쪽은 도함수 그래프이다.

 

선형 함수를 Activation Function으로 사용하지 않는 이유

  • h1, h2, h3는 각각 같은 층에 속해있는 neuron이고 선형 함수를 activation function으로 가지고 있다.
  • W는 가중치이다.
  • X1, X2는 input이다.
  • Y는 output layer의 neuro이다.
  • Output 을 보면 선형 함수 식으로 나타나는 것을 볼 수 있다.
  • XOR문제에서 보았듯이 선형적으로 구분되지 않는 문제를 풀기 위해 DNN이 도출되었다. 그런데 Activation Function을 선형 함수로 설정하면, * hidden layer를 추가해 비선형적인 구분을 가능케 한다는 DNN의 목적이 전혀 달성되지 않는다는 것을 알 수 있다.
  • 그렇기 때문에 activation function으로는 선형 함수를 사용할 수 없다.

 

다층 퍼셉트론 회귀 활용

  • 회귀용 다층 퍼셉트론을 만들 때 출력 뉴런에 activation function을 사용하지 않고, 어떤 범위의 값도 출력되도록 함. 다시 말해 이전 층의 값을 가중합 한 결과를 그대로 출력한다.
  • 만약, 회귀분석 결과 값을 0 이상으로 제한해야 한다면, ReLU, softplus 함수를 사용한다.
  • 만약, 회귀분석 결과를 0~1사이의 값으로 제한하고 싶으면 Sigmoid함수를 사용한다.
  • 만약, 회귀분석 결과를 -1~1사이의 값으로 제한하고 싶으면 hyperbolic tangent함수를 사용한다.

 

10.1.6 분류를 위한 다층 퍼셉트론

 

이진 분류 문제

  • 0~1사이의 값을 출력해야 하는 이진 분류 문제의 경우 output layer에 1개의 neuron만 필요하다.
  • 예를 들어 앞서 살펴본 iris 데이터의 경우 versicolor를 구한다고 생각해보자.
  • Input은 sepal width, sepal length, petal width라고 가정한다.
  • 이 때 output은 versicolor인지 아닌지를 0과 1의 값을 통해 표시하게 된다.

 

다중 이진 분류 문제

  • 다중 레이블 이진 분류의 경우 softmax함수를 사용하여 분류한다.
  • 다시 iris 문제를 생각해보자. 이번에는 versicolor인지만 분류하는 것이 아니라, verginica, versicolor, setosa 셋 중 무엇인지를 분류하는 문제이다.
  • 이 때 input을 넣으면 output layer의 softmax함수에 의해 결과 값이 각 레이블의 확률값으로 나타난다.
  • 예를 들어 [0.1, 0.8, 0.1]과 같이 결과 값이 도출되는데, 이는 verginica일 확률이 0.1, versicolor일 확률이 0.8, setosa일 확률이 0.1이라는 뜻이다