Hypothesis Test
기술 통계치
count, mean, standard dev, min, 1Q, median, 3Q, max 등의 데이터를 설명 하는 값(혹은 통계치)들
추리 통계치
수집한 데이터를 바탕으로 추론, 예측하는 통계 기법
가설검정
- 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 수치로 판정한다.
- 모집단의 실제 값에 대한 sample(모집단의 표본)의 통계치를 사용해 통계적으로 유의한지 아닌지 여부를 판정.
귀무가설 (Null Hypothesis, H0): A는 B일 것이다.
대안가설 (Alternative Hypothesis, H1) : A는 B가 아닐 것이다.
T-test
평균치에서 벗어난 표준오차를 통해 통계적으로 유의미한지 판단
H0(귀무가설) : fair coin, p =0.5
H1(대립가설) : not fair coin, p != 0.5
P-value
가설이 얼마나 근거가 있는지를 0~1 사이의 값으로 표현
p-value >= 0.05 : accept H0
p-value < 0.05 : accept H1
pvalue < 0.01 : 귀무가설 옳을 확률 1%이하 → 틀렸다 (깐깐한 기준)
pvalue < 0.05 (5%) : 귀무가설 옳을 확률 5%이하 → 틀렸다 (일반적인 기준)
0.05 ~ pvalue ~ 0.1 사이인 경우: (애매함) -> 샘플링 및 실험 다시
pvalue > 0.1 : 귀무가설이 옳을 확률 10% 이상 -> 귀무가설을 기각 할수 없다 or 틀리지 않았을것이다
Scipy t-test
One sample test
샘플 데이터의 평균이 “X”보다 크다 혹은 작다 or 크지않다를 검정한다.
stats.ttest_1samp(tree, 400) # tree의 평균과 400 비교
Two Sample T-test
샘플 데이터의 평균이 “X”(비교데이터)와 서로 동일한지 비교한다.
stats.ttest_ind(tree1,tree2) # tree1, tree2가 서로 동일한가 비교6일차 2021.03.11>
'[CodesSates] AI 부트캠프' 카테고리의 다른 글
Confidence Interval (0) | 2021.03.16 |
---|---|
Hypothesis Test (0) | 2021.03.14 |
Data Visualize (0) | 2021.03.09 |
Data Manipulation (0) | 2021.03.09 |
Feature Engineering (0) | 2021.03.05 |