본문 바로가기
데이터마이닝

[데이터마이닝] 가설 검정과 상관 관계에 대하여

by LSB98 2024. 4. 19.
728x90
반응형

* 상관분석

- 표본의 수가 적을 경우 : t-분포

- 표본의 수가 많은 경우 : 정규 분포

 

참고 : n -> 무한대이면, t-분포는 정규분포를 따름(약 n>=30)

 

* 가설검증에서 표본의 수가 적을 경우

- 가설

H0 : p = p0 귀무가설

H0 : p =≠ p0 대립가설

 

- 통계량

 

- 결정 : 유이수준 a일 때 다음의 경우 귀무가설 H0을 기각함

n-2의 자유도

 

- t-분포

z와 v가 각각 표준정규확률변수와 자유도 v인 카이제곱확률 변수이고, z와 v가 서로 독립일때,

확률밀도 함수 : 

 

- 카이제곱 분포

연속확률변수 X의 확률분포가

와 같이 주어질 때, X는 자유도 V인 카이제곱분포를 따른다.

 

* 가설검증에서 표본의 수가 많은 경우

- 정규분포 : 평균 u와 분산 ∂^2을 가지는 정규확률변수 X의 확률분포

-> 해석하자면 만약 H0가 기각되지 않을 경우 p0이 적절한 p라고 볼 수 있음

그리고 데이터와 일관된 다른 값의 p가 있는 것이다.

 

* 상관 계수의 성질

-  범위 : -1=<p=<1

- 선형의 관계

- 만약 Corr(x1,x2)이 p일 경우 Corr(ax1+b, cx2+d)또한 p임 // Scaling, Transition하는 경우에도 같다는 의미

ㅣp ㅣ  해석
0 ~ 0.2 경미하거나 무시할 수 있을 정도의 상관성
0.2 ~ 0.4 낮은 상관성, 관계는 존재하지만 매우 작음
0.4 ~ 0.7 어느 정도의 상관성, 상호 적지 않은 관계
0.7 ~ 0.9 높은 상관성, 뚜렷한 관계
0.9 ~ 1.0 매우 높은 상관성, 상호 관계가 매우 높음

 

- 계열 상관 분석 : 연속적인 시간 간격으로 측정된 변수, 자신과의 상관성을 계산

ex) 두 시계열 간의 xi와 xi+1의 상관 분석

- 서열 상관 분석 : 순서형 데이터의 상관 분석

ex) 10명의 학생들이 시험을 위해 공부한 시간과 시험에서 정답을 맞춘 질문의 수를 결정하기 위해 설문조사를 받았다.

두 변수 사이에 상관성이 있는가?

스피어만 상관 분석, 켄달 타우 상관 분석

 

피어슨 상관분석의 가정 : 변수간 독립성, 정규분포를 가진다.

 

 

 

728x90
반응형