Lab-10-1 Relu

모두를 위한 딥러닝 시즌2 - TensorFlow

sososoy 2021. 11. 17. 15:15

Sigmoid의 문제점

ground-truth와 output의 차이를 loss라고 하는데, 이 loss를 미분한 것을 gradient라고 한다.

gradient = 그래프의 기울기

그래프 가운데는 기울기가 크지만, 양 극단의 경우 기울기가 매우 작다. (분홍색 부분)

backpropagation을 할 때 이러한 sigmoid를 쓰면 매우 작은 gradient가 계층이 쌓일수록 많아지게 되고,
이는 vanishing gradient를 초래한다. 이러한 경우 네트워크 학습이 잘 되지 않게 된다.

대안: Relu

0 이상의 gradient = 1

따라서 아무리 네트워크가 deep해도 gradient 값이 잘 전달된다.

그러나 0보다 작은 gradient는 아예 0의 값을 가지기 때문에 전달이 잘 안 된다는 단점이 있다.

그래도 Relu가 가진 장점(간단하면서 좋은 성능)으로 널리 쓰인다.

sigmoid, relu 등은 keras activations에 있다.

0 미만의 Relu를 극복하기 위해 leaky relu를 사용한다.

이때 leaky relu는 keras의 layer쪽에 있다는 것을 주의한다.

relu는 0보다 작은 음수의 값을 가질 때 어떠한 알파에 (매우 작은 값: 0.01 등) x를 곱하여 값을 추출한다.

0보다 큰 값을 가질 때는 x값 그대로 추출한다.

<코드>

클래스형 네트워크 구현

함수형 네트워크 구현

파라미터 설정

모델 설정 - Adam optimizer 사용

Sigmoid에 비해 Relu가 4% 성능 향상이 된 것을 확인할 수 있다.

Lab-11-0-1 cnn basics convolution, Lab-11-0-2 cnn basics pooling (0)	2021.11.17
lec11-1 ConvNet의 Conv 레이어 만들기, lec11-2: ConvNet Max pooling 과 Full Network, lec11-3 ConvNet의 활용예 (0)	2021.11.17
Lab-09-1 neural nets XOR, Lab-09-2 tensorboard XOR (0)	2021.11.10
lec9-1: XOR 문제 딥러닝으로 풀기, lec9-2: 딥넷트웍 학습 시키기 (backpropagation) (0)	2021.11.10
Lec 08-2: 딥러닝의 기본 개념2: Back-propagation 과 2006/2007 '딥'의 출현 (0)	2021.11.03

핫소스

ML, 패스트캠퍼스, 머신러닝, 추천시스템, sasrec, Logistic Regression, finetuning, boaz, 빅데이터연합동아리, EC2 인스턴스 스토리지, 배치 정규화, BOAZ컨퍼런스, prompttuning, aws, node.js, 빅데이터동아리, 인공지능 논문 리뷰, softmax, multivariable linear regression, 파이썬,

핫소스