[딥러닝] DNN 설계에 관한 핵심 내용들

728x90

입력 -> 은닉층(복수 가능) -> 출력층

각 층에서는 아래와 같은 수식으로 이루어진다.

설계시 고려사항

- 은닉층 수가 너무 많으면 과적합 발생

- 출력층 활성함수는 문제 유형(분류/회귀)에 따라 선택

이름	역할	특징
Sigmoid	이진 분류용, 출력값(0~1)	Gradient Vanishing 문제 발생 -> 학습이 느려짐
Tanh	출력값 (-1~1), 중심이 0	Sigmoid보다 학습 안정
ReLU	0이하는 0, 나머지는 그대로	빠르고 간단하지만 죽은 뉴런 문제 (dead neuron)
Leaky ReLU	음수도 작은 기울기 유지	ReLU 개선 버전
ELU, Swish	비선형 표현력 + 부드러움	성능 우수, AutoML에서 많이 사용
Softmax	다중 분류용, 확률로 변환	출력값의 총합이 1

- 회귀:

- 이진 분류 :

- 다중 분류:

Cross Entropy는 MLE(Maximum Likelihood Estimation) 기반

5. 단어 정리

Gradient Vanishing: Sigmoid, Tanh 사용 시 역전파 중 기울기가 너무 작아져 학습 정지

Saddle Point : 기울기가 0이지만 최소값도 최대값도 아님 → 학습 진행 안 됨

학습률 α\alpha: 너무 크면 발산, 너무 작으면 수렴이 느림 → Adaptive 방식(Adam 등) 사용

Sigmoid → Vanishing 문제

ReLU → 빠르지만 Dead Neuron 생김

Cross Entropy = MLE 기반

Adam = 가장 널리 사용되는 Optimizer

Gradient Vanishing / Saddle Point는 학습 장애 요인

728x90

[딥러닝] CNN 구조를 한눈에! (1)	2025.04.20
[딥러닝] DNN 학습의 원리와 최적화 전략 (0)	2025.04.20
[딥러닝] 딥러닝 모델은 어떻게 학습되는가? – DNN & CNN 학습 구조 (1)	2025.04.20
[딥러닝] DNN(Deep Neural Network)의 구조와 특징 (0)	2025.04.13
[딥러닝] 딥러닝과 빅데이터 개념 (0)	2025.04.13