[데이터마이닝] 가설 검정과 상관 관계에 대하여

728x90

* 상관분석

- 표본의 수가 적을 경우 : t-분포

- 표본의 수가 많은 경우 : 정규 분포

참고 : n -> 무한대이면, t-분포는 정규분포를 따름(약 n>=30)

* 가설검증에서 표본의 수가 적을 경우

- 가설

H0 : p = p0 귀무가설

H0 : p =≠ p0 대립가설

- 통계량

- 결정 : 유이수준 a일 때 다음의 경우 귀무가설 H0을 기각함

- t-분포

z와 v가 각각 표준정규확률변수와 자유도 v인 카이제곱확률 변수이고, z와 v가 서로 독립일때,

확률밀도 함수 :

- 카이제곱 분포

연속확률변수 X의 확률분포가

와 같이 주어질 때, X는 자유도 V인 카이제곱분포를 따른다.

* 가설검증에서 표본의 수가 많은 경우

- 정규분포 : 평균 u와 분산 ∂^2을 가지는 정규확률변수 X의 확률분포

-> 해석하자면 만약 H0가 기각되지 않을 경우 p0이 적절한 p라고 볼 수 있음

그리고 데이터와 일관된 다른 값의 p가 있는 것이다.

* 상관 계수의 성질

- 범위 : -1=<p=<1

- 선형의 관계

- 만약 Corr(x1,x2)이 p일 경우 Corr(ax1+b, cx2+d)또한 p임 // Scaling, Transition하는 경우에도 같다는 의미

ㅣp ㅣ	해석
0 ~ 0.2	경미하거나 무시할 수 있을 정도의 상관성
0.2 ~ 0.4	낮은 상관성, 관계는 존재하지만 매우 작음
0.4 ~ 0.7	어느 정도의 상관성, 상호 적지 않은 관계
0.7 ~ 0.9	높은 상관성, 뚜렷한 관계
0.9 ~ 1.0	매우 높은 상관성, 상호 관계가 매우 높음

- 계열 상관 분석 : 연속적인 시간 간격으로 측정된 변수, 자신과의 상관성을 계산

ex) 두 시계열 간의 xi와 xi+1의 상관 분석

- 서열 상관 분석 : 순서형 데이터의 상관 분석

ex) 10명의 학생들이 시험을 위해 공부한 시간과 시험에서 정답을 맞춘 질문의 수를 결정하기 위해 설문조사를 받았다.

두 변수 사이에 상관성이 있는가?

스피어만 상관 분석, 켄달 타우 상관 분석

피어슨 상관분석의 가정 : 변수간 독립성, 정규분포를 가진다.

728x90

저작자표시 변경금지

'데이터마이닝' 카테고리의 다른 글

[데이터마이닝] 최소 제곱 추정 구하기 (+행렬 포함) (1)	2024.04.20
[데이터마이닝] 회귀 분석에 대하여 (0)	2024.04.19
[데이터 마이닝] 피어슨(pearson) 상관 분석에 대하여 1_상관행렬 구하기 (0)	2024.03.28
[데이터 마이닝] 모집단, 표본 및 표본 추출법, 모델링 작업 (1)	2024.03.27
[데이터 마이닝] 데이터 분석 기초 및 모델링 설계 (1)	2024.03.14

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

이 페이지의 URL 복사	`S` `S`
맨 위로 이동	`T` `T`
티스토리 홈 이동	`H` `H`
단축키 안내	`Shift` + `/` `⇧` + `/`

[데이터마이닝] 가설 검정과 상관 관계에 대하여

'데이터마이닝' 카테고리의 다른 글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역

[데이터마이닝] 가설 검정과 상관 관계에 대하여

'데이터마이닝' 카테고리의 다른 글

관련글

티스토리툴바

단축키

내 블로그

블로그 게시글

모든 영역