본문 바로가기
728x90
반응형

데이터마이닝9

[데이터마이닝] 회귀 분석에 대하여 * 회귀분석 - 회귀(Regress)는 도로 돌아온다는 것을 뜻함 - 평균으로 회귀 : 예시) 평균적으로 자녀들은 부모의 키가 클수록 큰 키를 갖는 것을 볼 수 있었음 이는 부모와 자녀의 키 사이의 양의 상관관계를 기대할 수 있다는 것을 나타냄 -> 부모의 키가 클 경우 자녀의 키는 부모에 비해 작은 것 -> 부모의 키가 작을 경우 자녀의 키는 부모에 비해 큰 것 - 단일 입력변수일 경우 입력과 출력 간의 선형관계를 뜻함 * 상관성에 대한 예측값 관련되어 예제 문제를 한번 풀어보겠습니다. 문제 : 다음은 월 수입과 이에 따르는 카드사용량에 대한 데이터이다. 아래의 데이터를 활용하여 월 수입과 카드 사용량 사이의 회귀식을 구하여라. 또한 월 수입이 250일 때 카드 사용량을 예측하여라 월 수입(X) 100.. 2024. 4. 19.
[데이터마이닝] 가설 검정과 상관 관계에 대하여 * 상관분석 - 표본의 수가 적을 경우 : t-분포 - 표본의 수가 많은 경우 : 정규 분포 * 가설검증에서 표본의 수가 적을 경우 - 가설 H0 : p = p0 귀무가설 H0 : p =≠ p0 대립가설 - 통계량 - 결정 : 유이수준 a일 때 다음의 경우 귀무가설 H0을 기각함 - t-분포 z와 v가 각각 표준정규확률변수와 자유도 v인 카이제곱확률 변수이고, z와 v가 서로 독립일때, 확률밀도 함수 : - 카이제곱 분포 연속확률변수 X의 확률분포가 와 같이 주어질 때, X는 자유도 V인 카이제곱분포를 따른다. * 가설검증에서 표본의 수가 많은 경우 - 정규분포 : 평균 u와 분산 ∂^2을 가지는 정규확률변수 X의 확률분포 -> 해석하자면 만약 H0가 기각되지 않을 경우 p0이 적절한 p라고 볼 수 있음.. 2024. 4. 19.
[데이터 마이닝] 피어슨(pearson) 상관 분석에 대하여 1_상관행렬 구하기 * 분석목표 상관성이란 변수들 간의 연관성을 측정하는 척도 다변량 분석의 주요점 중 하나는 연관성이 높은 변수들을 공동으로 분석하는 것 -> 상관분석을 통해 먼저 예증 * X = {X_ip} n * p의 데이터 행렬 n : 데이터 개수 / p : 변수 개수 * 평균 벡터(Mean Vector) * 공분산 행렬 (Covariance Matrix) * 상관 계수 (Correlation Coefficient) * 상관 행렬 (Correlation Matrix) -> 공분산 행렬과 동일한 과정 예시로 하나 풀어보겠습니다! 2024. 3. 28.
[데이터 마이닝] 모집단, 표본 및 표본 추출법, 모델링 작업 * 모집단 - 구성 요소의 총 집합(기록, 관측치 등) - 조사하기에는 너무 큰 수치 - 자주 데이터 수집 중에 변경되는 항목 * 표본 - 모집단의 부분 그룹 - 무작위 추출 시 전체 모집단을 대표한다. - 하지만 본질적으로 실무에서 일부 데이터 값에 편향된 값 * 무작위 표본 추출법(Random Sampling) • 단순 무작위 표본 추출법 (Simple Random Sampling) • 계통 표본 추출법 (Systematic Random Sampling) (N: 모집단 요소 수, k: 표본 추출 간격) 1에서 k 사이의 숫자를 랜덤하게 선택하여 표본 세트에 포함 또한 샘플 세트에 각 k번째 요소를 포함 Ex) 모집단: {1,2,3,…,100}, N=100, k=10, 선택된 숫자=3 표본: {3, 1.. 2024. 3. 27.
728x90
반응형