4.1 다층 퍼셉트론 신경망 구조
다층 퍼셉트론 신경망은 복수의 퍼셉트론 계층을 순서를 두고 배치하여 입력 벡터로부터 중간 표현을 거쳐 출력 벡터를 얻어내는 신경망 구조다. 간단히 다층 퍼셉트론이라고도 부른다.
4.2 은닉 계층의 수와 폭
은닉 계층의 수와 폭은 신경망 설계자가 임의로 설정 가능하다. 신경만의 품질을 결정짓는 중요한 요인.
무조건 늘린다고 품질이 좋아지는 것은 아니다. (충분한 데이터와 학습 없으면 오히려 품질 저하 초래도 가능)
-> 문제의 규모, 데이터 양, 난이도를 종합적으로 고려해 결정
-> 학습률, 미니배치 크기 같은 하이퍼파라미터의 영향도 고려 필요
4.3 비선형 활성화 함수
출력 계층에서는 비선형 활성화 함수를 두지 않는다.
- 시그모이드 함수나 소프트맥수 함수 이용한 후처리로 대신
- 두 함수 모두 비선형 함수지만 출력 계층에는 부적절
- 소프트맥스: 다대다 함수여서 퍼셉트론에 삽입 곤란
은닉 계층은 비선형 활성화 함수 사용이 필수적이고 비선형 활성화 함수 없이는 독립된 계층으로서 의미가 없다.
ReLU를 가장 널리 이용한다.
4.4 ReLU 함수
ReLU 함수는 음수 입력을 걸러내 0으로 만드는 간단한 기능을 제공한다. 은닉 계층의 비선형 활성화 함수로 가장 널리 이용된다.
x = 0에서 미분이 불가능하지만, y'=0이라고 정해주어도 무방하다.
x가 양수일 때는 y'=1, 음수일 때는 y'=0
따라서 파이썬에서 np.sign() 함수를 통해 간편하게 계산 가능하다.
4.5 민스키의 XOR 문제
y = f(x1,x2) = w1x1 + w2x2 + b에서 w1,w2,b 값이 정해져 있는 상황에서는 노랑, 녹색 동시 만족이 불가하다.
따라서 XOR을 구현할 수 없다는 결론이 나옴.
이 신경망은 두 개의 퍼셉트론 H1, H2로 구성된 은닉 계층과 하나의 퍼셉트론 Y1로 구성된 출력 계층을 갖는 간단한 다층 퍼셉트론 신경망이다. 동작 표를 추적해보면 다음과 같다.