분류 전체보기
-
TPR, FPR → Positive 판단에 따른 성공, 실패 여부 True Positive Ratio(=Recall) : $\frac{TP}{TP+FN}$ 실제 Positive(양성)을 얼마나 정확히 분류 했는지 False Positive Ratio(=Fallout) : $\frac{FP}{TN + FP}$시 실제 Negative(음성) 중 잘못 분류한 비율 TPR, FPR 모두 Positive(양성) 판단에 따른 성공, 실패 여부를 다룸 이때 성공-실패 여부는 Positive(양성) 판단의 기준이 될 Threshold를 어떻게 설정 하느냐에 따라 다른 결과가 나오게 됨 ROC와 AUC? ROC : Positive 예측 시 Threshold 별 양상을 확인하기 위해, FPR을 x 축으로, TPR을 y 축..
Classification Metrics(분류 모델 지표 ) 알아보기 : TPR, FPR과 ROC Curve 사이 관계 및 AUCTPR, FPR → Positive 판단에 따른 성공, 실패 여부 True Positive Ratio(=Recall) : $\frac{TP}{TP+FN}$ 실제 Positive(양성)을 얼마나 정확히 분류 했는지 False Positive Ratio(=Fallout) : $\frac{FP}{TN + FP}$시 실제 Negative(음성) 중 잘못 분류한 비율 TPR, FPR 모두 Positive(양성) 판단에 따른 성공, 실패 여부를 다룸 이때 성공-실패 여부는 Positive(양성) 판단의 기준이 될 Threshold를 어떻게 설정 하느냐에 따라 다른 결과가 나오게 됨 ROC와 AUC? ROC : Positive 예측 시 Threshold 별 양상을 확인하기 위해, FPR을 x 축으로, TPR을 y 축..
2023.04.28 -
Web Server(웹 서버) 클라이언트로부터 HTTP 요청을 받아 Static pages(정적 페이지)를 제공하거나, Dynamic Pages(동적 페이지) 요청을 WAS에 전달 하는 서버 및 프로그램을 의미한다. 서버가 설치된 PC 자체를 가리키는 말이기도 하다. 예시) Apache, Nginx Common Gateway Interface(CGI) Web Server(웹 서버)와 Application Program 사이 정보를 주고 받는 프로토콜이다. CGI를 통해 웹 서버가 Dynamic Pages(동적 페이지) 구성을 할 수 있다. 프로토콜이기 때문에 어떤 언어로도 작성될 수 있다. CGI는 클라이언트 요청을 처리 하기 위해 매번 Process(프로세스)를 새로 생성한다. 따라서 많은 요청이 발생..
[Web] Web Server(웹 서버)와 CGI, Web Application Server(WAS, 앱 서버) 알아보기Web Server(웹 서버) 클라이언트로부터 HTTP 요청을 받아 Static pages(정적 페이지)를 제공하거나, Dynamic Pages(동적 페이지) 요청을 WAS에 전달 하는 서버 및 프로그램을 의미한다. 서버가 설치된 PC 자체를 가리키는 말이기도 하다. 예시) Apache, Nginx Common Gateway Interface(CGI) Web Server(웹 서버)와 Application Program 사이 정보를 주고 받는 프로토콜이다. CGI를 통해 웹 서버가 Dynamic Pages(동적 페이지) 구성을 할 수 있다. 프로토콜이기 때문에 어떤 언어로도 작성될 수 있다. CGI는 클라이언트 요청을 처리 하기 위해 매번 Process(프로세스)를 새로 생성한다. 따라서 많은 요청이 발생..
2023.04.28 -
Static pages(정적 페이지) html, css, javascript 등으로 미리 작성된 파일 등을 서버에 저장해 놓고, 매 클라이언트 요청마다 동일한 페이지를 반환하는 경우다. 동적인 요소가 없기 때문에 별도의 DB 없이 Web Server(웹 서버)만으로 처리할 수 있는 영역이다. 미리 저장된 파일을 불러오기 때문에 로딩 자체가 빠르고, 공격적인 캐시 설정을 통해 이를 극대화할 수 있다는 장점이 있다. 다만 페이지 내용 변경 시 서버에 업로드해야 하는 과정이 필요한 만큼, 수정이 불편한 단점이 있다. Dynamic pages(동적 페이지) 클라이언트 요청에 따라 데이터를 가공해 맞춤형 결과를 반환하는 경우다. 동적 페이지를 위해선 Web Application Server(WAS)와 DB가 필요..
[Web] Static pages(정적 페이지)와 Dynamic pages(동적 페이지) 알아보기Static pages(정적 페이지) html, css, javascript 등으로 미리 작성된 파일 등을 서버에 저장해 놓고, 매 클라이언트 요청마다 동일한 페이지를 반환하는 경우다. 동적인 요소가 없기 때문에 별도의 DB 없이 Web Server(웹 서버)만으로 처리할 수 있는 영역이다. 미리 저장된 파일을 불러오기 때문에 로딩 자체가 빠르고, 공격적인 캐시 설정을 통해 이를 극대화할 수 있다는 장점이 있다. 다만 페이지 내용 변경 시 서버에 업로드해야 하는 과정이 필요한 만큼, 수정이 불편한 단점이 있다. Dynamic pages(동적 페이지) 클라이언트 요청에 따라 데이터를 가공해 맞춤형 결과를 반환하는 경우다. 동적 페이지를 위해선 Web Application Server(WAS)와 DB가 필요..
2023.04.26 -
어떤 특성을 가진 Regression Metrics(회귀 평가 지표)? 기존에 다뤘던 MAE, MSE, RMSE는 Scale-Dependent한 특성이 있었다. 하지만 이 포스팅에서 다룰 지표들은 비율, % 기반으로 접근하기 때문에 상대적으로 Scale에서 자유롭다는 특징이 있다. MSLE(Mean Sqaured Log Error) $$ MSLE = \frac{1}{n}\sum_{i=1}^{n}(\log{y_i}-\log{\hat{y_i})}^2 $$ 모델의 예측 $\hat{y}$와 Label $y$에 각각 Log를 적용해 MSE를 한 것이다. Log 함수의 특성을 가지고 있는 지표이다. $\log{y}-\log{\hat{y}} = \frac{\log{y}}{\log{\hat{y}}}$ 이기 때문에 상대..
Regression Metrics(회귀 평가 지표) 알아보기 : MSLE, RMSLE, R^2, MAPE, sMAPE, MPE어떤 특성을 가진 Regression Metrics(회귀 평가 지표)? 기존에 다뤘던 MAE, MSE, RMSE는 Scale-Dependent한 특성이 있었다. 하지만 이 포스팅에서 다룰 지표들은 비율, % 기반으로 접근하기 때문에 상대적으로 Scale에서 자유롭다는 특징이 있다. MSLE(Mean Sqaured Log Error) $$ MSLE = \frac{1}{n}\sum_{i=1}^{n}(\log{y_i}-\log{\hat{y_i})}^2 $$ 모델의 예측 $\hat{y}$와 Label $y$에 각각 Log를 적용해 MSE를 한 것이다. Log 함수의 특성을 가지고 있는 지표이다. $\log{y}-\log{\hat{y}} = \frac{\log{y}}{\log{\hat{y}}}$ 이기 때문에 상대..
2023.04.26 -
plot 할 때 원하는 label을 지정 Legend에 표시하고 싶은 내용을 label 인자에 입력해주면 된다. d10_ft = check3[(check3['choice'] == 1)&(check3['decile'] == 10)]['TOTL_SQ_FT_CNT'] d1_ft = check3[(check3['choice'] == 1)&(check3['decile'] == 1)]['TOTL_SQ_FT_CNT'] f, ax = plt.subplots(1, 1) sns.distplot(d10_ft, label = 'decile 10',ax=ax) sns.distplot(d1_ft, label = 'decile 1',ax=ax) ax.legend() 참고 How to add legend to seaborn mult..
[Seaborn] Figure 하나에 Graph 여러 개 그릴 때 Legend 표시하기plot 할 때 원하는 label을 지정 Legend에 표시하고 싶은 내용을 label 인자에 입력해주면 된다. d10_ft = check3[(check3['choice'] == 1)&(check3['decile'] == 10)]['TOTL_SQ_FT_CNT'] d1_ft = check3[(check3['choice'] == 1)&(check3['decile'] == 1)]['TOTL_SQ_FT_CNT'] f, ax = plt.subplots(1, 1) sns.distplot(d10_ft, label = 'decile 10',ax=ax) sns.distplot(d1_ft, label = 'decile 1',ax=ax) ax.legend() 참고 How to add legend to seaborn mult..
2023.04.23 -
MAE, MSE, RMSE = Scale-Dependent Metrics MAE, MSE, RMSE는 데이터 Scale에 의존하는 Metrics(평가 지표)이다. 그래서 동일 데이터를 다루더라도 Scaling 전-후에 따라 다른 수치를 얻게 된다는 특징이 있다. 따라서 이러한 평가 지표를 통해 모델 간 성능을 비교할 때는 Scale을 주의해야 한다. MAE(Mean Absolute Error) $$ MAE=\frac{1}{n}\displaystyle\sum_{i=1}^{n} |y_i-\hat{y}_i| $$ 모델의 Residual(잔차)에 절댓값을 취한 뒤 평균 처리한다. MAE를 기준으로 최적화 시 Median(중앙값)에 수렴한다는 특징이 있다. 장점 잔차의 Scale을 그대로 다루기 때문에 결과를 직..
Regression Metrics(회귀 모델 평가 지표) 알아보기 : MAE, MSE, RMSEMAE, MSE, RMSE = Scale-Dependent Metrics MAE, MSE, RMSE는 데이터 Scale에 의존하는 Metrics(평가 지표)이다. 그래서 동일 데이터를 다루더라도 Scaling 전-후에 따라 다른 수치를 얻게 된다는 특징이 있다. 따라서 이러한 평가 지표를 통해 모델 간 성능을 비교할 때는 Scale을 주의해야 한다. MAE(Mean Absolute Error) $$ MAE=\frac{1}{n}\displaystyle\sum_{i=1}^{n} |y_i-\hat{y}_i| $$ 모델의 Residual(잔차)에 절댓값을 취한 뒤 평균 처리한다. MAE를 기준으로 최적화 시 Median(중앙값)에 수렴한다는 특징이 있다. 장점 잔차의 Scale을 그대로 다루기 때문에 결과를 직..
2023.04.23 -
둘 사이의 관계? MAE는 Median(중앙값)일 때가 최소이다. 아래 글은 MAE가 왜 중앙값일 때 최소가 되는지 대략적으로 설명한 글이다. 개인적으로 이해하기 쉽게(?) 그림으로 표현했다. The median minimizes the sum of absolute deviations (the $ {\ell}_{1} $ norm) Suppose we have a set $S$ of real numbers. Show that $$\sum_{s\in S}|s-x| $$ is minimal if $x$ is equal to the median. This is a sample exam question of one of the exams that I need to take a... math.stackexchang..
[짧] MAE(Mean Absolute Error)와 Median(중앙값) 사이 관계 알아보기둘 사이의 관계? MAE는 Median(중앙값)일 때가 최소이다. 아래 글은 MAE가 왜 중앙값일 때 최소가 되는지 대략적으로 설명한 글이다. 개인적으로 이해하기 쉽게(?) 그림으로 표현했다. The median minimizes the sum of absolute deviations (the $ {\ell}_{1} $ norm) Suppose we have a set $S$ of real numbers. Show that $$\sum_{s\in S}|s-x| $$ is minimal if $x$ is equal to the median. This is a sample exam question of one of the exams that I need to take a... math.stackexchang..
2023.04.22 -
$R^2$(결정 계수)란? $R^2$(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) $y$의 총 변동(분산)을 회귀 모델 $wx$로 표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다. $$ R^2 = \frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2} $$ 식에선 분모, 분자 모두 $\bar{y}$를 기준으로 분산을 측정한다. 이때 $\bar{y}$는 $y$의 평균이면서, 동시에 회귀 모델 $wx$와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 $y$의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive한 예측($\bar{y}$) 대비 모델($\hat{y}$..
R^2(결정 계수, Coefficient of Determination) 알아보기$R^2$(결정 계수)란? $R^2$(결정 계수)는 회귀 모델의 성능 평가 지표로, Dependent Variable(종속 변수) $y$의 총 변동(분산)을 회귀 모델 $wx$로 표현할 수 있는 정도를 나타낸다. 이를 수식으로 나타내면 다음과 같다. $$ R^2 = \frac{\sum(\hat{y_i}-\bar{y})^2}{\sum(y_i-\bar{y})^2} $$ 식에선 분모, 분자 모두 $\bar{y}$를 기준으로 분산을 측정한다. 이때 $\bar{y}$는 $y$의 평균이면서, 동시에 회귀 모델 $wx$와 관련 없는 Naive한 예측이다. 따라서 결정 계수는 $y$의 분산을 현 모델로 얼마나 나타낼 수 있는지 알려주는 지표면서, 동시에 Naive한 예측($\bar{y}$) 대비 모델($\hat{y}$..
2023.04.21 -
가정이 필요한 이유? Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다. 선형성 가정 Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다. 오차항의 정규성 가정 $y = wx+\epsilon$에..
Linear Regression(선형 회귀) 모델 가정 알아보기가정이 필요한 이유? Linear Regression(선형 회귀) 모델은 선형적 관계의 Independent Variable(독립 변수)와 Dependent Variable(종속 변수)가 수치적으로 얼마나 관련 있는지 확인하는 것이 목적이다. 가정이 만족돼야 목적에 맞게 모델을 사용할 수 있고, Residual(잔차)을 통해 계수, 모형 검정 등을 진행할 수 있다. 선형성 가정 Independent Variable(독립 변수) $x$와 Dependent Variable(종속 변수)의 조건부 기댓값 $E(y|x)$ 사이 선형 관계가 존재해야 한다. 둘 사이의 관계가 선형이라는 것은 $y = wx+\epsilon$에서 $w$가 일차식인 경우를 의미한다. 오차항의 정규성 가정 $y = wx+\epsilon$에..
2023.04.20 -
Decision Tree(결정 트리) 데이터를 통해 Branch를 구성하고 이를 통해 분류, 회귀까지 할 수 있는 모델이다. 이 중 분류 모델의 경우 Impurity가 최소가 되는 방향으로 Branch가 생성되며, 여러 Branch로 구성된 최종 형태가 거꾸로 세운 나무 같아 트리 모델이라고 부른다. Impuriy는 Entropy와 Gini index로 측정된다. Impurity 측정 지표 Impurity라는 이름처럼 Entropy, Gini index 모두 고유한 성분만 있을 때 최솟값을 가지고, 반반 섞여 있을 경우 최댓값을 가진다. 두 지표 중 Entropy는 $log$ 항이 있어, 상대적으로 계산에 더 오랜 시간이 걸린다. Entropy $$ E = -\sum_{k=1}^K p(y_k) \log_..
Decision Tree(결정 트리) 구성과 Impurity(불순도) 알아보기Decision Tree(결정 트리) 데이터를 통해 Branch를 구성하고 이를 통해 분류, 회귀까지 할 수 있는 모델이다. 이 중 분류 모델의 경우 Impurity가 최소가 되는 방향으로 Branch가 생성되며, 여러 Branch로 구성된 최종 형태가 거꾸로 세운 나무 같아 트리 모델이라고 부른다. Impuriy는 Entropy와 Gini index로 측정된다. Impurity 측정 지표 Impurity라는 이름처럼 Entropy, Gini index 모두 고유한 성분만 있을 때 최솟값을 가지고, 반반 섞여 있을 경우 최댓값을 가진다. 두 지표 중 Entropy는 $log$ 항이 있어, 상대적으로 계산에 더 오랜 시간이 걸린다. Entropy $$ E = -\sum_{k=1}^K p(y_k) \log_..
2023.04.19 -
Density Estimation(DE)? 관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다. 이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다. 데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다. PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음 Non-Parametric Estimation 확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자. Histogram 데이터의..
Non-Parametric Density Estimation(비모수 밀도 추정) 알아보기Density Estimation(DE)? 관측 데이터는 확률 변수에 의해 샘플링된 것으로 볼 수 있다. 이러한 관측 데이터를 많이 모으면 어떤 확률 변수에서 추출됐는지 추정이 가능할 것이다. 데이터를 통해 기존 확률 변수의 Density(PDF)를 추정하는 것이 바로 DE이다. PDF를 알면 확률 변수에 정보를 알 수 있기에 가치 있음 Non-Parametric Estimation 확률 변수의 형태를 미리 가정할 경우를 Parametric, 아닐 경우 Non-Parametric Model 이라고 한다. Non-Parametric Estimation은 변수에 대한 가정 없이 관측된 데이터만 가지고 DE를 진행한다. 다양한 방법 중 간단하게 Histogram, KDE만 알아보자. Histogram 데이터의..
2023.04.16 -
Independent(독립) 두 랜덤 변수의 Joint Probability(결합 확률)가 각 변수의 Marginal Probability(주변 확률)로 표현되는 경우를 의미한다. $$ P(X,Y)=P(X)P(Y) $$ Uncorrealted(상관 관계 없음) 두 랜덤 변수 사이 Correlation 관계가 없음을 의미하며, Correlation ($\rho_{X, Y}$) 가 0 인 경우이다. Correlation ($\rho_{X, Y}$) 은 두 변수 사이 선형적 관계를 보여주는 지표로, Covariance(공분산)을 각 변수의 표준 편차로 정규화한 값이다. $$ \begin{align*}\rho_{XY} &= \mathbf{E}\left[\frac{X-\mathbf{E}[X]}{\sqrt{\mat..
Independent(독립)와 Uncorrelated(상관 관계 없음) 알아보기Independent(독립) 두 랜덤 변수의 Joint Probability(결합 확률)가 각 변수의 Marginal Probability(주변 확률)로 표현되는 경우를 의미한다. $$ P(X,Y)=P(X)P(Y) $$ Uncorrealted(상관 관계 없음) 두 랜덤 변수 사이 Correlation 관계가 없음을 의미하며, Correlation ($\rho_{X, Y}$) 가 0 인 경우이다. Correlation ($\rho_{X, Y}$) 은 두 변수 사이 선형적 관계를 보여주는 지표로, Covariance(공분산)을 각 변수의 표준 편차로 정규화한 값이다. $$ \begin{align*}\rho_{XY} &= \mathbf{E}\left[\frac{X-\mathbf{E}[X]}{\sqrt{\mat..
2023.04.15