Confidence Interval
핵심 키워드
- Confidence Interval의 의미
- CLT의 의미
ANOVA
- 2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법
from scipy.stats import f_oneway
f_oneway(g1, g2, g3)
F_onewayResult(statistic=2.6009238802972483, pvalue=0.11524892355706169)
샘플링
- 데이터프레임 : df.sample( n , random_stae = )
그래프 에러바
- yerr = y축 신뢰구간, xerr = x축 신뢰구간
ex)
plt.bar('s1', s1_mean, yerr = s1_err, capsize = 10) # yerr = 오차 막대 표시
그래프에 점선
ex)
plt.axhline(y= df['오존(ppm)'].mean(), color='#4000c7', linestyle = '--')
중심극한정리 (CLT)
- sample 데이터가 많아질수록, 평균은 정규분포에 근사한 형태로 나타남
ex) 초등학교 3학년 1000명의 평균 키.
130cm일 것이다.
125 ~ 135cm 정도 일 것이다.
120 ~ 140cm 정도 일 것이다.
1cm ~ 300cm 정도 일 것이다.
예측 하는 "구간"이 넓어질 수록 맞을 확률(신뢰도)은 올라감.
신뢰도
- 신뢰도 95% -> 100번 뽑았을 때 95번은 신뢰구간 내에 모집단의 평균이 포함
from scipy.stats import t
# 표본의 크기
n = len(sample)
# 자유도
dof = n-1
# 평균의 평균
mean = np.mean(sample)
# 표본의 표준편차
sample_std = np.std(sample, ddof = 1)
# 표준 오차
std_err = sample_std / n ** 0.5 # sample_std / sqrt(n)
CI = t.interval(.95, dof, loc = mean, scale = std_err) # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
print("95% 신뢰구간: ", CI)
95% 신뢰구간: (37.93312500671013, 50.63689939897239)
'[CodesSates] AI 부트캠프' 카테고리의 다른 글
Vector / Matrix (0) | 2021.03.21 |
---|---|
Bayesian (0) | 2021.03.19 |
Hypothesis Test (0) | 2021.03.14 |
Hypothesis Test (0) | 2021.03.14 |
Data Visualize (0) | 2021.03.09 |