본문 바로가기
딥러닝

[딥러닝] DNN 설계에 관한 핵심 내용들

by LSB98 2025. 4. 14.
728x90
반응형

1. DNN 설계의 핵심 원리

입력 -> 은닉층(복수 가능) -> 출력층

각 층에서는 아래와 같은 수식으로 이루어진다.

 

설계시 고려사항

- 은닉층 수가 너무 많으면 과적합 발생

- 출력층 활성함수는 문제 유형(분류/회귀)에 따라 선택

 

2. 활성함수 정리 및 문제점

이름 역할 특징
Sigmoid 이진 분류용, 출력값(0~1) Gradient Vanishing 문제 발생
-> 학습이 느려짐
Tanh 출력값 (-1~1), 중심이 0 Sigmoid보다 학습 안정
ReLU 0이하는 0, 나머지는 그대로 빠르고 간단하지만 죽은 뉴런 문제
(dead neuron)
Leaky ReLU 음수도 작은 기울기 유지 ReLU 개선 버전
ELU, Swish 비선형 표현력 + 부드러움 성능 우수, AutoML에서 많이 사용
Softmax 다중 분류용, 확률로 변환 출력값의 총합이 1

 

3. 손실 함수 (Loss Function)

- 회귀:

 

- 이진 분류 :

 

- 다중 분류:

Cross Entropy는 MLE(Maximum Likelihood Estimation) 기반

 

4. 최적화 알고리즘 비교

알고리즘 특징 장단점
SGD 무작위 샘플로 학습 단순하지만 진동 심하고 느림
Momentum 이전 속도 유지 빠르지만 overshoot 가능
Nesterov 미리 앞서서 경사 확인 더 정밀하게 수렴
AdaGrad 많이 바뀐 변수는 학습률 떨어짐 수렴 빨리 되지만 너무 일찍 멈춤
RMSProp 최근 변화 중심으로 학습률 조절 안정적이고 널리 사용됨
Adam Momentum + RMSProp 결합 대부분의 딥러닝 모델에서 사용됨

 

5. 단어 정리

Gradient Vanishing: Sigmoid, Tanh 사용 시 역전파 중 기울기가 너무 작아져 학습 정지

Saddle Point : 기울기가 0이지만 최소값도 최대값도 아님 → 학습 진행 안 됨

학습률 α\alpha: 너무 크면 발산, 너무 작으면 수렴이 느림 → Adaptive 방식(Adam 등) 사용

Sigmoid → Vanishing 문제

ReLU → 빠르지만 Dead Neuron 생김

Cross Entropy = MLE 기반

Adam = 가장 널리 사용되는 Optimizer

Gradient Vanishing / Saddle Point는 학습 장애 요인

 

 

728x90
반응형