no image
Classification Metrics(분류 모델 지표 ) 알아보기 : TPR, FPR과 ROC Curve 사이 관계 및 AUC
TPR, FPR → Positive 판단에 따른 성공, 실패 여부 True Positive Ratio(=Recall) : $\frac{TP}{TP+FN}$ 실제 Positive(양성)을 얼마나 정확히 분류 했는지 False Positive Ratio(=Fallout) : $\frac{FP}{TN + FP}$시 실제 Negative(음성) 중 잘못 분류한 비율 TPR, FPR 모두 Positive(양성) 판단에 따른 성공, 실패 여부를 다룸 이때 성공-실패 여부는 Positive(양성) 판단의 기준이 될 Threshold를 어떻게 설정 하느냐에 따라 다른 결과가 나오게 됨 ROC와 AUC? ROC : Positive 예측 시 Threshold 별 양상을 확인하기 위해, FPR을 x 축으로, TPR을 y 축..
2023.04.28
no image
Regression Metrics(회귀 평가 지표) 알아보기 : MSLE, RMSLE, R^2, MAPE, sMAPE, MPE
어떤 특성을 가진 Regression Metrics(회귀 평가 지표)? 기존에 다뤘던 MAE, MSE, RMSE는 Scale-Dependent한 특성이 있었다. 하지만 이 포스팅에서 다룰 지표들은 비율, % 기반으로 접근하기 때문에 상대적으로 Scale에서 자유롭다는 특징이 있다. MSLE(Mean Sqaured Log Error) $$ MSLE = \frac{1}{n}\sum_{i=1}^{n}(\log{y_i}-\log{\hat{y_i})}^2 $$ 모델의 예측 $\hat{y}$와 Label $y$에 각각 Log를 적용해 MSE를 한 것이다. Log 함수의 특성을 가지고 있는 지표이다. $\log{y}-\log{\hat{y}} = \frac{\log{y}}{\log{\hat{y}}}$ 이기 때문에 상대..
2023.04.26
no image
Regression Metrics(회귀 모델 평가 지표) 알아보기 : MAE, MSE, RMSE
MAE, MSE, RMSE = Scale-Dependent Metrics MAE, MSE, RMSE는 데이터 Scale에 의존하는 Metrics(평가 지표)이다. 그래서 동일 데이터를 다루더라도 Scaling 전-후에 따라 다른 수치를 얻게 된다는 특징이 있다. 따라서 이러한 평가 지표를 통해 모델 간 성능을 비교할 때는 Scale을 주의해야 한다. MAE(Mean Absolute Error) $$ MAE=\frac{1}{n}\displaystyle\sum_{i=1}^{n} |y_i-\hat{y}_i| $$ 모델의 Residual(잔차)에 절댓값을 취한 뒤 평균 처리한다. MAE를 기준으로 최적화 시 Median(중앙값)에 수렴한다는 특징이 있다. 장점 잔차의 Scale을 그대로 다루기 때문에 결과를 직..
2023.04.23
no image
[짧] MAE(Mean Absolute Error)와 Median(중앙값) 사이 관계 알아보기
둘 사이의 관계? MAE는 Median(중앙값)일 때가 최소이다. 아래 글은 MAE가 왜 중앙값일 때 최소가 되는지 대략적으로 설명한 글이다. 개인적으로 이해하기 쉽게(?) 그림으로 표현했다. The median minimizes the sum of absolute deviations (the $ {\ell}_{1} $ norm) Suppose we have a set $S$ of real numbers. Show that $$\sum_{s\in S}|s-x| $$ is minimal if $x$ is equal to the median. This is a sample exam question of one of the exams that I need to take a... math.stackexchang..
2023.04.22
no image
R^2(결정 계수, Coefficient of Determination) 알아보기
$R^2$(결정 계수)란? $R^2$(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) $y$의 총 변동(분산)을 회귀 모델 $wx$로 표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다. $$ R^2 = \frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2} $$ 식에선 분모, 분자 모두 $\bar{y}$를 기준으로 분산을 측정한다. 이때 $\bar{y}$는 $y$의 평균이면서, 동시에 회귀 모델 $wx$와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 $y$의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive한 예측($\bar{y}$) 대비 모델($\hat{y}$..
2023.04.21
no image
Linear Regression(선형 회귀) 모델 가정 알아보기
가정이 필요한 이유? Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다. 선형성 가정 Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다. 오차항의 정규성 가정 $y = wx+\epsilon$에..
2023.04.20
no image
Decision Tree(결정 트리) 구성과 Impurity(불순도) 알아보기
Decision Tree(결정 트리) 데이터를 통해 Branch를 구성하고 이를 통해 분류, 회귀까지 할 수 있는 모델이다. 이 중 분류 모델의 경우 Impurity가 최소가 되는 방향으로 Branch가 생성되며, 여러 Branch로 구성된 최종 형태가 거꾸로 세운 나무 같아 트리 모델이라고 부른다. Impuriy는 Entropy와 Gini index로 측정된다. Impurity 측정 지표 Impurity라는 이름처럼 Entropy, Gini index 모두 고유한 성분만 있을 때 최솟값을 가지고, 반반 섞여 있을 경우 최댓값을 가진다. 두 지표 중 Entropy는 $log$ 항이 있어, 상대적으로 계산에 더 오랜 시간이 걸린다. Entropy $$ E = -\sum_{k=1}^K p(y_k) \log_..
2023.04.19
no image
Non-Parametric Density Estimation(비모수 밀도 추정) 알아보기
Density Estimation(DE)? 관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다. 이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다. 데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다. PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음 Non-Parametric Estimation 확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자. Histogram 데이터의..
2023.04.16
no image
Independent(독립)와 Uncorrelated(상관 관계 없음) 알아보기
Independent(독립) 두 랜덤 변수의 Joint Probability(결합 확률)가 각 변수의 Marginal Probability(주변 확률)로 표현되는 경우를 의미한다. $$ P(X,Y)=P(X)P(Y) $$ Uncorrealted(상관 관계 없음) 두 랜덤 변수 사이 Correlation 관계가 없음을 의미하며, Correlation ($\rho_{X, Y}$) 가 0 인 경우이다. Correlation ($\rho_{X, Y}$) 은 두 변수 사이 선형적 관계를 보여주는 지표로, Covariance(공분산)을 각 변수의 표준 편차로 정규화한 값이다. $$ \begin{align*}\rho_{XY} &= \mathbf{E}\left[\frac{X-\mathbf{E}[X]}{\sqrt{\mat..
2023.04.15
no image
Sampling(표본 추출) 방식 별 특징과 추출법 결정 시 고려 사항
Probability Sampling(확률 표본 추출) Simple Random Sampling(무작위 추출법) 모집단 전체에 일련 번호(실제 혹은 개념적)를 부여하고, 랜덤하게 추출하는 방식 장점 추출 확률이 동일하기 때문에, 표본의 대표성이 크고, 오차 개입 여부가 적음 모집단에 대한 사전 지식 불필요 단점 대규모 표본일 때 효과적임 모집단에 대한 사전 지식을 활용할 수 없고, 표본 프레임(모집단 목록)을 파악하기 어려움 Stratified Sampling(층화 추출법) 모집단을 서로 겹치지 않는 여러 개의 ‘층’으로 쪼갠 뒤, 각 ‘층’에서 무작위로 추출하는 방식 ‘층’ 마다의 개수를 고려해 추출한다면, 비례 층화 추출 장점 집단을 ‘층’으로 관리해 빼놓지 않고 표본에 포함 시킬 수 있음 대표성이 ..
2023.04.11
no image
[짧] Epoch, mini-Batch, Step 헷갈리지 않게 외우기
Epoch 전체 데이터를 모두 학습한 경우를 1 Epoch라고 한다. mini-Batch 전체 데이터를 일정한 크기로 나눠놓은 것으로, 여러 개(N)의 mini-Batch가 1 Epoch를 구성한다. 1 Epoch = mini-Batch $\times N$ Step $\theta$가 업데이트된 횟수로, 일반적으로 많이 활용되는 mini-Batch SGD에선 N과 동일하다.
2023.02.15
no image
경사 하강법이 Gradient의 반대 방향으로 진행되는 이유
Intro Gradient descent(경사 하강법)은 최적화 기법 중 하나로, 손실 함수를 최소화하기 위해서 사용된다. 경사 하강법에선 효과적으로 $\theta$ 를 변화시키기 위해, 가장 가파른 경사 방향으로 $\theta$ 를 업데이트한다. 이때, 가장 가파른 경사일 때의 방향이 Gradient 방향 일 때 이므로, $\theta$ 는 Gradient의 반대 방향으로 업데이트된다. 누군가 나에게 경사 하강법을 간단하게 설명하라고 하면, 아마도 위에 적은 것처럼 말할 거 같다. 근데 저 설명을 듣는 입장에선, 아마도 왜 가장 가파른 경사일 때의 방향이 Gradient 방향이고, 왜 Gradient의 반대 방향으로 $\theta$ 가 업데이트 돼야 하는 지에 대해서 의문이 생길 거 같다. 그래서 위와..
2023.01.31