전체 글 35

Ridge Regression

Ridge Regression Pandas-Profiling - 데이터 타입, 결측값, 중복 등 다양한 정보 확인 가능 매우 유용 - df.profile_report() wikidocs.net/47193 위키독스 온라인 책을 제작 공유하는 플랫폼 서비스 wikidocs.net One Hot Encoding - 범주형 변수(Categorical)는 순서가 없는 명목형(nominal)과 순서가 있는 순서형(ordinal)로 나뉨. - pd.get_dummies 활용 # prefix 컬럼에 지정한 글자로 시작하도록 # drop_first 불필요한 요소 제거 pd.get_dummies(df, prefix ['text'], drop_first=True) - category_encoders 활용 ## import ..

Multiple Regression

Multiple Regression R square - 선형회귀 모델의 예측값과 관측값의 유사 정도, 1에 가까울 수록 설명력이 높다 from sklearn.metrics import r2_score plotly - 3D 시각화 px.scatter_3d( train, x='GrLivArea', y='OverallQual', z='SalePrice', title='House Prices' ) 회귀모델 평가지표 from sklearn.metrics import mean_squared_error, mean_absolute_error, r2_score 과적합 , 과소적합 - 과적합 : 모델이 train 데이터에 과하게 학습해 일반화가 안되서, test 데이터에서 오차가 커지는 현상 / 분산이 높은 경우 과적합 ..

Simple Regression

Simple Regression 기준 모델 - 직관적이면서 최소한의 성능을 나타내는 기준이 되는 모델 분류문제: 타겟의 최빈 클래스 회귀문제: 타겟의 평균값 시계열회귀문제: 이전 타임스탬프의 값 - MAE(평균절대오차) : errors.abs().mean() Simple Linear Regression 종속변수는 반응(Response)변수, 레이블(Label), 타겟(Target) 독립변수는 예측(Predictor)변수, 설명(Explanatory), 특성(feature) - 회귀선은 잔차 제곱들의 합인 RSS(residual sum of squares)를 최소화 하는 직선 - SLR with Scikt-learn from sklearn.linear_model import LinearRegression ..

Clustering

Dimension Reduction 핵심 키워드 Scree Plot Supervised / Unsupervised Learning K-means clustering Scree plot 각 PC의 Variation에 대한 그래프 - x 축 은 PC, y축은 pca.explained_variance_ Supervised (지도학습) - 지도학습 : 트레이닝 데이터에 라벨(답)이 있을 때 분류 (Classification) 분류 알고리즘은 주어진 데이터의 카테고리 혹은 클래스 예측을 위해 사용 회귀 (Prediction) 회귀 알고리즘은 continuous 한 데이터를 바탕으로 결과를 예측 하기 위해 사용 Unsupervised Learning (비지도학습) - 비지도학습 : 트레이닝 데이터에 라벨(답)이 없..

Dimension Reduction

Dimension Reduction 핵심 키워드 Vector Transformation High dimension Data와, 이로 인한 이슈 Feature Extraction / Selection PCA 고유벡터 (Eigenvector) , 고유값 (Eigenvalue) - Transformation은 matrix를 곱하는 것을 통해, 벡터(데이터)를 다른 위치로 옮긴다라는 의미를 가지고 있음 이러한 Transformation에 영향을 받지 않는 벡터를 고유벡터 라고함. - 주어진 transformation에 대해서 크기만 변하고 방향은 변화 하지 않는 벡터 - 여기서 변화하는 크기는 결국 스칼라 값으로 변화 할 수 밖에 없는데, 이 특정 스칼라 값을 고유값 (eigenvalue) Selection 과..

Linear Algebra +

Linear Algebra + 핵심 키워드 벡터와 매트릭스의 기본 연산 상관계수 공분산 Linear Projection variance 데이터가 얼마나 퍼져있는지 - np.var() covariance 1개의 변수 값이 변화할 때 다른 변수가 어떠한 연관성을 나타내며 변하는지를 측정하는 것 - np.cov Correlation coefficient 상관계수는 -1에서 1까지로 정해진 범위 안의 값만을 갖으며 선형연관성이 없는 경우 0에 근접 - np.corr Span Span 이란, 주어진 두 벡터의 (합이나 차와 같은) 조합으로 만들 수 있는 모든 가능한 벡터의 집합 Basis basis공간을 채울 수 있는 선형 관계에 있지 않은 벡터들의 모음입니다. ( span 의 역개념 ) Rank 매트릭스의 ra..

Vector / Matrix

Vector / Matrix 핵심 키워드 벡터와 매트릭스의 기본 연산 NumPy Identity Matrix Determinant Inverse matrix 행렬식 (Determinant) 행렬식은 모든 정사각 매트릭스가 갖는 속성 2x2 매트릭스를 기준으로, 행렬식은 다음과 같이 (AD-BC) 계산 할 수 있습니다: 8 16 - 12 9 = 20 |x| = det(x) = 20 행렬 numpy 단위행렬 (Unit matrix): np.eye(n) 대각행렬 (Diagonal matrix): np.diag(x) 내적 (Dot product, Inner product): np.dot(a, b) 대각합 (Trace): np.trace(x) 행렬식 (Matrix Determinant): np.linalg.det..

Bayesian

Bayesian 핵심 키워드 조건부 확률 ( conditional probability) 베이지안 추측의 사용 예시 베이즈 정리 이해 참고 유튜브 https://youtu.be/Y4ecU7NkiEI - 베이즈 정리 약물 양성 반응 예시 #TPR : True Positive Rate (= 민감도, true accept rate) 1인 케이스에 대해 1로 잘 예측한 비율.(암환자를 암이라고 진단 함) #FPR : False Positive Rate (=1-특이도, false accept rate) 0인 케이스에 대해 1로 잘못 예측한 비율.(암환자가 아닌데 암이라고 진단 함) p_pos_used = 0.99 # True positive rate (TPR, Sensitivity) p_used = 0.005 #..

Confidence Interval

Confidence Interval 핵심 키워드 Confidence Interval의 의미 CLT의 의미 ANOVA - 2개 이상 그룹의 평균에 차이가 있는지를 가설 검정하는 방법 from scipy.stats import f_oneway f_oneway(g1, g2, g3) F_onewayResult(statistic=2.6009238802972483, pvalue=0.11524892355706169) 샘플링 - 데이터프레임 : df.sample( n , random_stae = ) 그래프 에러바 - yerr = y축 신뢰구간, xerr = x축 신뢰구간 ex) plt.bar('s1', s1_mean, yerr = s1_err, capsize = 10) # yerr = 오차 막대 표시 그래프에 점선 e..

Hypothesis Test

Hypothesis Test2 T-Test 조건 - 독립성 : 두 그룹이 연결되어 이쓴 (paired) 쌍인지 (cat or cat vs cat or dong) - 등분산성 : 두 그룹이 어느정도 유사한 수준의 분산 값을 가지는지/ normaltest(data) - 정규성 : 데이터가 정규성을 나타내는지 Non parametric methods - Categorical 데이터를 위한 모델링 - 극단적인 Outlier가 있는 경우 유효한 방식 - 대표적으로 Chisquare, Kruskal-wallis test 키, 몸무게와 같은 연속형 자료(수량화 할 수 있는 데이터)를 분석할 때에는 T-test와 ANOVA 분석 방법이 사용된다. 반면에, 성별, 혈액형 등 범주형 자료(수량화 할 수 없는 데이터)를 분..