전체 글 35

Hypothesis Test

Hypothesis Test 기술 통계치 count, mean, standard dev, min, 1Q, median, 3Q, max 등의 데이터를 설명 하는 값(혹은 통계치)들 추리 통계치 수집한 데이터를 바탕으로 추론, 예측하는 통계 기법 가설검정 - 주어진 상황에 대해서, 하고자 하는 주장이 맞는지 아닌지를 수치로 판정한다. - 모집단의 실제 값에 대한 sample(모집단의 표본)의 통계치를 사용해 통계적으로 유의한지 아닌지 여부를 판정. 귀무가설 (Null Hypothesis, H0): A는 B일 것이다. 대안가설 (Alternative Hypothesis, H1) : A는 B가 아닐 것이다. T-test 평균치에서 벗어난 표준오차를 통해 통계적으로 유의미한지 판단 H0(귀무가설) : fair c..

Data Visualize

Data Manipulation 그래프 영역 설정 - fig, ax = plt.subplots(figsize=(5,6)) seaborn.rugplot() - rugplot : x,y축 위에 작은 rug로 실제 데이터들의 위치 보여줌 seaborn.stripplot() - jitter = True : 점들이 겹치는 현상 해결 그래프 색상 지정 Ex) palette = {"Adelie":'#ff9ff3', "Gentoo":"#4000c7", "Chinstrap":'#1dd1a1'} - 이미지 안에서 색상 코드 찾기 imagecolorpicker.com/ - palette 참조용 레퍼런스 colorhunt.co/ seaborn.FaceGrid() - FacetGrid(data, row, col, hue) : ..

Data Manipulation

Data Manipulation 첫번째 row가 columns인 경우 new_header = df.iloc[0] # grab the first row for the header df = df[1:] # take the data less the header row df.columns = new_header # set the header row as the df header pd.merge() : DataFrame 결합 Ex) pd.merge(df1,df2, how = '(방법)', on = 'year') - how = 'left' : 왼쪽에 있는 df1의 'year'을 기준으로 합치기 - how = 'right' : 오른쪽에 있는 df2의 'year'을 기준으로 합치기 - how = 'inner' : 중복..

Feature Engineering

Feature Engineering Undifined / Nan / Null 차이점 Undifined : 선언은 되었으나 값이 할당 되지 않은 상태 Nan : 숫자가 아니다 Null : 아무런 값도 나타내지 않는 특수한 값 데이터 불러오기 'header = None' : 데이터의 첫 행이 나오지 않을 때 사용 'Thound' = ',' : 불러올 때 천 단위 마침표 제거 'names = ' : 불러올 coulmns 지정 문자열 변경 replace('대상문자', '변환문자') re.sub('text', '대상문자', '변환문자') table = str.maketrans('대상문자','변환문자') 만든 후 'text'.translate(table)로 변환 DataFrmae 생성 raw = {'구분' : ['..

EDA

[Warm-UP] Markdown https://youtu.be/kMEb_BzyUqk - 자주 사용할 만한 Markdown ###Heading : #이 많을수록 크기 작아짐 Line 추가 (-------) : --- **bold** : 굵게 *italic* : 기울임 ~~strikethrough~~ : 취소선 > Qoute : 인용문 - or * or 숫자 : 목록 작성 Click [here][URL] : 링크 추가 ![image description][이미지URL] : 이미지 추가 '''언어 Code ''' : 코드 블럭에 가독성 있게 표현 EDA - EDA(Exploratory Data Analysis) : 탐색적 데이터 분석, 복잡한 모델링이나 수식 쓰지않고 데이터 탐색 - 한글이 깨져서 출력될 때..