[CodesSates] AI 부트캠프

Confidence Interval

웅탈 2021. 3. 16. 01:02

Confidence Interval

 

핵심 키워드

 

  • Confidence Interval의 의미
  • CLT의 의미

 

ANOVA

- 2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법

 

from scipy.stats import f_oneway

f_oneway(g1, g2, g3)
F_onewayResult(statistic=2.6009238802972483, pvalue=0.11524892355706169)

 

 

샘플링

- 데이터프레임 : df.sample( n , random_stae = )

 

 

그래프 에러바

- yerr = y축 신뢰구간, xerr = x축 신뢰구간

ex)
plt.bar('s1', s1_mean, yerr = s1_err, capsize = 10) # yerr = 오차 막대 표시

 

그래프에 점선
ex)
plt.axhline(y= df['오존(ppm)'].mean(), color='#4000c7', linestyle = '--')

 

중심극한정리 (CLT)

- sample 데이터가 많아질수록, 평균은 정규분포에 근사한 형태로 나타남

 

ex) 초등학교 3학년 1000명의 평균 키.

130cm일 것이다.

125 ~ 135cm 정도 일 것이다.

120 ~ 140cm 정도 일 것이다.

1cm ~ 300cm 정도 일 것이다.

예측 하는 "구간"이 넓어질 수록 맞을 확률(신뢰도)은 올라감.

 

신뢰도

- 신뢰도 95% -> 100번 뽑았을 때 95번은 신뢰구간 내에 모집단의 평균이 포함

 

from scipy.stats import t

# 표본의 크기
n = len(sample)
# 자유도
dof = n-1
# 평균의 평균
mean = np.mean(sample)
# 표본의 표준편차
sample_std = np.std(sample, ddof = 1)
# 표준 오차
std_err = sample_std / n ** 0.5 # sample_std / sqrt(n)

CI = t.interval(.95, dof, loc = mean, scale = std_err) # https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.t.html
print("95% 신뢰구간: ", CI)
95% 신뢰구간:  (37.93312500671013, 50.63689939897239)

 

'[CodesSates] AI 부트캠프' 카테고리의 다른 글

Vector / Matrix  (0) 2021.03.21
Bayesian  (0) 2021.03.19
Hypothesis Test  (0) 2021.03.14
Hypothesis Test  (0) 2021.03.14
Data Visualize  (0) 2021.03.09