728x90
반응형
1. DNN 설계의 핵심 원리
입력 -> 은닉층(복수 가능) -> 출력층
각 층에서는 아래와 같은 수식으로 이루어진다.
설계시 고려사항
- 은닉층 수가 너무 많으면 과적합 발생
- 출력층 활성함수는 문제 유형(분류/회귀)에 따라 선택
2. 활성함수 정리 및 문제점
이름 | 역할 | 특징 |
Sigmoid | 이진 분류용, 출력값(0~1) | Gradient Vanishing 문제 발생 -> 학습이 느려짐 |
Tanh | 출력값 (-1~1), 중심이 0 | Sigmoid보다 학습 안정 |
ReLU | 0이하는 0, 나머지는 그대로 | 빠르고 간단하지만 죽은 뉴런 문제 (dead neuron) |
Leaky ReLU | 음수도 작은 기울기 유지 | ReLU 개선 버전 |
ELU, Swish | 비선형 표현력 + 부드러움 | 성능 우수, AutoML에서 많이 사용 |
Softmax | 다중 분류용, 확률로 변환 | 출력값의 총합이 1 |
3. 손실 함수 (Loss Function)
- 회귀:
- 이진 분류 :
- 다중 분류:
Cross Entropy는 MLE(Maximum Likelihood Estimation) 기반
4. 최적화 알고리즘 비교
알고리즘 | 특징 | 장단점 |
SGD | 무작위 샘플로 학습 | 단순하지만 진동 심하고 느림 |
Momentum | 이전 속도 유지 | 빠르지만 overshoot 가능 |
Nesterov | 미리 앞서서 경사 확인 | 더 정밀하게 수렴 |
AdaGrad | 많이 바뀐 변수는 학습률 떨어짐 | 수렴 빨리 되지만 너무 일찍 멈춤 |
RMSProp | 최근 변화 중심으로 학습률 조절 | 안정적이고 널리 사용됨 |
Adam | Momentum + RMSProp 결합 | 대부분의 딥러닝 모델에서 사용됨 |
5. 단어 정리
Gradient Vanishing: Sigmoid, Tanh 사용 시 역전파 중 기울기가 너무 작아져 학습 정지
Saddle Point : 기울기가 0이지만 최소값도 최대값도 아님 → 학습 진행 안 됨
학습률 α\alpha: 너무 크면 발산, 너무 작으면 수렴이 느림 → Adaptive 방식(Adam 등) 사용
Sigmoid → Vanishing 문제
ReLU → 빠르지만 Dead Neuron 생김
Cross Entropy = MLE 기반
Adam = 가장 널리 사용되는 Optimizer
Gradient Vanishing / Saddle Point는 학습 장애 요인
728x90
반응형
'딥러닝' 카테고리의 다른 글
[딥러닝] CNN 구조를 한눈에! (1) | 2025.04.20 |
---|---|
[딥러닝] DNN 학습의 원리와 최적화 전략 (0) | 2025.04.20 |
[딥러닝] 딥러닝 모델은 어떻게 학습되는가? – DNN & CNN 학습 구조 (1) | 2025.04.20 |
[딥러닝] DNN(Deep Neural Network)의 구조와 특징 (0) | 2025.04.13 |
[딥러닝] 딥러닝과 빅데이터 개념 (0) | 2025.04.13 |