본문 바로가기
딥러닝

[딥러닝] 딥러닝과 빅데이터 개념

by LSB98 2025. 4. 13.
728x90
반응형

- 인공지능(AI), 머신러닝(ML), 딥러닝(DL)

인공 지능(AI) : 인간의 지능을 구현하려는 기술 전체

머신러닝 (ML) : 데이터 기반 학습 -> 문제 해결 능력 습득

딥러닝 (DL) : 생물학적 신경망을 모방한 인공신경망(ANN) 기반 학습

* 장점 :

복잡한 데이터 간 관계를 자동으로 학습

다양한 문제에 범용적으로 사용 가능

모델이 클수록 표현력도 증가

 

- 머신러닝 분류 및 딥러닝 특징

지도학습 : 정답(label)이 있는 데이터로 학습 (ex. 분류, 회귀)

비지도학습 : 정답이 없는 데이터 -> 패턴 찾기 (ex. 클러스터링)

강화학습 : 보상/별점 기반 학습

 

👉 딥러닝은 위 모든 분야에 적용 가능하며, 기존 머신러닝보다 성능이 우수

 

- 인공 신경망(ANN)의 구조

퍼셉트론(Perceptron) : 하나의 입력 계층 -> 출력

퍼셉트론의 예시

 

 

  • x₁, x₂: 입력값 (Inputs)
  • w₁, w₂: 각 입력에 곱해지는 가중치 (Weights)
  • Σ + b: 입력과 가중치의 선형결합 후 편향 b를 더한 값
  • Activation Function: 비선형 처리를 통해 결과값 결정
  • y: 최종 출력값 (Output)

 

단일층(SLP) vs 다층신경망(MLP)

심층신경망(DNN)은 은닉층 2개 이상 -> 복잡한 문제 해결 가능

 

- 학습 방법 핵심 요약

가설(Hypothesis): 예측함수 → 예시) Y = wx + b

손실 함수 (Loss Function)

1) 회귀 : MSE (Mean Squared Error)

2) 분류 : 교차 엔트로피 (Cross Entropy)

최적화 함수 (Optimizer)

1) 경사하강법(Gradient Descent) : 손실이 최소가 되는 w, b 찾기

2) 파라미터 업데이트 공식 : 

 

 

 

- 딥러닝의 한계와 이슈

장점 : 특징 추출 자동화, 높은 확장성 및 성능

한계 : 대량의 학습 데이터 필요, 시간/비용 소모 큼, 디버깅 어려움

오버피팅 : 학습 데이터에 너무 최적화되어 테스트 성능 저하

Gradient Vanishing : 역전파 시 미분값 손실 -> 학습 중단

 

- 평가 지표 정리

Accuracy : 전체 중 맞춘 비율

Precision : 예측 결과 중 실제로 맞춘 비율

Recall : 실제 정답 중 예측이 맞은 비율

Confusion Matrix : TP,FP,FN,TN 확인

 

Confusion Matrix 실제 정답
예측   Positive Negative
Positive TP FP
Negative FN TN

 

 

- 빅데이터 개념

배경 : 인터넷, SNS 확산 -> 데이터 폭증 (Zettabyte 시대 진입)

3V -> 5V 속성 :

Volume(규모), Variety(다양성), Velocity(속도)

Veracity(정확성), Value(가치)

처리과정 : 

데이터 수집 -> 저장 -> 분석 -> 시각화 -> 의미추출

기술 : 자연어처리 / 패턴학습 / MapReduce 사용

728x90
반응형