* 상관분석
- 표본의 수가 적을 경우 : t-분포
- 표본의 수가 많은 경우 : 정규 분포

* 가설검증에서 표본의 수가 적을 경우
- 가설
H0 : p = p0 귀무가설
H0 : p =≠ p0 대립가설
- 통계량

- 결정 : 유이수준 a일 때 다음의 경우 귀무가설 H0을 기각함

- t-분포
z와 v가 각각 표준정규확률변수와 자유도 v인 카이제곱확률 변수이고, z와 v가 서로 독립일때,

확률밀도 함수 :

- 카이제곱 분포
연속확률변수 X의 확률분포가

와 같이 주어질 때, X는 자유도 V인 카이제곱분포를 따른다.
* 가설검증에서 표본의 수가 많은 경우
- 정규분포 : 평균 u와 분산 ∂^2을 가지는 정규확률변수 X의 확률분포

-> 해석하자면 만약 H0가 기각되지 않을 경우 p0이 적절한 p라고 볼 수 있음
그리고 데이터와 일관된 다른 값의 p가 있는 것이다.
* 상관 계수의 성질
- 범위 : -1=<p=<1
- 선형의 관계
- 만약 Corr(x1,x2)이 p일 경우 Corr(ax1+b, cx2+d)또한 p임 // Scaling, Transition하는 경우에도 같다는 의미
ㅣp ㅣ | 해석 |
0 ~ 0.2 | 경미하거나 무시할 수 있을 정도의 상관성 |
0.2 ~ 0.4 | 낮은 상관성, 관계는 존재하지만 매우 작음 |
0.4 ~ 0.7 | 어느 정도의 상관성, 상호 적지 않은 관계 |
0.7 ~ 0.9 | 높은 상관성, 뚜렷한 관계 |
0.9 ~ 1.0 | 매우 높은 상관성, 상호 관계가 매우 높음 |
- 계열 상관 분석 : 연속적인 시간 간격으로 측정된 변수, 자신과의 상관성을 계산
ex) 두 시계열 간의 xi와 xi+1의 상관 분석
- 서열 상관 분석 : 순서형 데이터의 상관 분석
ex) 10명의 학생들이 시험을 위해 공부한 시간과 시험에서 정답을 맞춘 질문의 수를 결정하기 위해 설문조사를 받았다.
두 변수 사이에 상관성이 있는가?
스피어만 상관 분석, 켄달 타우 상관 분석
피어슨 상관분석의 가정 : 변수간 독립성, 정규분포를 가진다.
'데이터마이닝' 카테고리의 다른 글
[데이터마이닝] 최소 제곱 추정 구하기 (+행렬 포함) (1) | 2024.04.20 |
---|---|
[데이터마이닝] 회귀 분석에 대하여 (0) | 2024.04.19 |
[데이터 마이닝] 피어슨(pearson) 상관 분석에 대하여 1_상관행렬 구하기 (0) | 2024.03.28 |
[데이터 마이닝] 모집단, 표본 및 표본 추출법, 모델링 작업 (1) | 2024.03.27 |
[데이터 마이닝] 데이터 분석 기초 및 모델링 설계 (1) | 2024.03.14 |