본문 바로가기
데이터마이닝

[데이터마이닝] 모델 진단(잔차산점도, 이상치 발생, QQ산점도)

by LSB98 2024. 4. 24.
728x90
반응형

* 잔차산점도 및 이상치 탐색

- 이상적인 잔차 산점도

y^에 좌우되지 않음 : E(e) = 0

동일한 분산 E(€) = 0, 동일한 분산 var( € ) = ∝^2 I

 

- Y^에 대한 잔차 산점도

 

* 잔차산점도의 여러 행태

(a)같은 경우 : 예측값에 대해 잔차 변화 : B0를 추가 하거나 재계산 해야한다.

(b)같은 경우 : 분산이 일정하지 않는다. : 변환이 필요하다(ex)로그변환), 가중치를 최소 제곱합 한다.

 

- X에 대한 잔차 산점도

 

(c)같은 경우 : 새로운 예측변수를 추가함, 𝑋^2 혹은 𝑋1𝑋2, 등등

 

* 영향관측치 또는 이상치 발생하는 경우

(a)의 경우 이상치가 선의 위치를 변화, (b)의 경우에는 이상치가 선의 방향을 변화 시킨다.

 

: [해결방안]

1) 모델을 적합하기 전 영향 관측치 제거

2) 평균/중앙/최빈값을 활용하여 이상치에 대한 영향력 감소

 

* QQ산점도

: Quantile Quantile Plot

: Data가 정규 분포를 따르는지 판단한다.

1) Error를 오름 차순으로 정렬

2) 확률 값 계산

3) 표준 정규분포의 분위 수 계산

4) 에러에 대한 정규성 평가를 진행한다.

QQ산점도의 예시

 

 

* 회귀모델에서 변수 선택하는 방법

1) Foward Selection

2) Backword elimination

3) Stepwise Selection

728x90
반응형