no image
Gradient Descent(경사 하강법)에서 Learning Rate(학습률)를 작게 설정하는 이유
이유? 딥러닝은 Loss function의 최적해를 탐색하기 위해서 Gradient Descent(경사 하강법)를 활용한다. 경사 하강법은 반복적으로 $\theta$를 $\theta+\Delta\theta$ 로 수정하며 최적해를 얻는 방법이고, Loss 함수의 1차 테일러 근사식이기도 하다. 근사식의 오차를 줄이기 위해선 Learning Rate(학습률)이 작아야 하고, 이것이 바로 학습률을 작은 값으로 설정하는 이유다. 수식으로 확인하기 $\theta+\Delta\theta$ 에서의 Loss는 다음과 같이 표현할 수 있다. $$L(\theta + \Delta\theta)$$ 테일러 전개의 기본 형태는 $f(x) = \sum_{n=0}^\infty \frac{f^{(n)}(a)}{n!} (x-a)^n$ ..
2022.04.26
no image
목적 함수(Objective function)와 최적화(Optimization)
목적 함수란? 머신러닝 모델의 평가지표는 손실(Loss)함수, 비용(Cost)함수, 목적(Objective) 함수 등 다양한 이름으로 불림 손실, 비용, 목적 함수의 명칭에 대해선 정확한 정의는 없지만 일반적으로 다음과 같이 생각하면 편함 A loss function is a part of a cost function which is a type of an objective function. 출처 결국 머신러닝 모델은 손실, 비용 함수는 줄이려고(minimise) 하며 목적 함수는 최적화(optimise)하려고 함 최적화하고 싶은 목적 함수는 최적의 모델을 확률 관점에서 볼 지 error 최소화 관점에서 볼 지에 따라서 다름 확률 관점에선 목적 함수를 최대화하고 싶어하고(Maximum Likelihood..
2022.04.10
no image
NLP Task 맛보기 - (3) NLG, Summarization
NLU와 QA에 대해서 다뤄보았으니 이번 포스팅에선 NLG(Natural Language Generation)의 전반적인 내용과 Extractive Summarization에 대해서 다뤄보겠습니다. NLG? NLG란 자연어 문장을 생성하는 기술입니다. 문장을 생성하기 위해서 주어진 정보(Text, Image, Video 등)을 이용합니다. 생성된 문장을 통해 주어진 정보를 축약하거나 보강할 수 있습니다. 또한 정보를 재구성하는 데도 도움을 줍니다. 이때 문장을 생성한다는 것은 결국 sequence $x$를 가장 잘 표현할 수 있는 token sequences를 얻는 것과 동일합니다. NLG Task는 크게 보면 문장 축약, 보강, 재구성으로 구성됩니다. 간단하게 살펴보면 다음과 같습니다. 문장 축약 1...
2022.02.23
no image
NLP Task 맛보기 - (2) NLU, QA
NLP는 NLU(Natural Language Understanding)와 NLG(Natural Language Generation)로 구분할 수 있습니다. 문자 그대로 NLU는 자연어 형태의 문장을 이해하는 기술이고 NLG는 자연어 문장을 생성하는 기술입니다. 결국 NLU와 NLG 모두 인간과 기계가 의사 소통할 수 있도록 도와주는 기술입니다. 이번 포스팅에선 NLU의 전반적인 내용과 QA에 대해서 다뤄보겠습니다. NLU? NLU는 자연어 형태의 문장을 이해하는 기술입니다. 이때 언어를 이해한다는 것은 2가지 측면으로 나눠서 생각할 수 있습니다. 바로 문법과 의미입니다. 따라서 기계가 만약 문법과 의미를 잘 알고 있다면 언어를 이해하고 있다고 할 수 있습니다. Syntatic : 언어를 이해한다면 주어..
2022.02.22
no image
NLP Task 맛보기 - (1)
이번 포스팅에선 매력적이라고 생각하는 NLP Task인 Dialogue Systems(대화 시스템)과 Language Modelling(언어 모델링)에 대해서 간단하게 다뤄보겠습니다. Dialogue Systems(대화 시스템) 대화 시스템은 문자 그대로 사람과 대화를 할 수 있는 시스템을 구성하는 것이 목표입니다. 따라서 대화 시스템 구성은 곧 '이루다' 만들기라고 할 수 있습니다. 대화 시스템의 경우 generation, retrieval-based 모델로 구분됩니다. 이 중에서 이루다가 사용했다고하는 retrieval-based 모델은 retrieval이란 단어에서 알 수 있듯이 기존에 미리 구축해둔 답변 DB에서 그럴듯한 대답을 여러개 골라서 그 중 최종적으로 답변을 선택합니다. 따라서 적절한 대..
2022.02.21
no image
Bias - Variance 이해하기
Intro 지도 학습 모델의 성능을 확인할 때는 과대 적합이나 과소 적합 여부를 정확하게 파악해야, 올바른 방법으로 모델을 개선할 수 있습니다. 과대 적합, 과소 적합은 Bias(편향)와 Variance(분산)과 깊은 관련이 있기 때문에 우선 편향과 분산을 이해하는 것이 중요합니다. 이번 포스팅에선 편향과 분산을 이해를 돕기 위한 내용을 정리했습니다. Bias - Variance? 먼저 그림을 통해서 편향과 분산에 대해서 이해해 봅시다. 그림에선 과녁의 중심과 다트 사이의 거리가 멀면 편향이 높다고 합니다. 또한 각 다트 사이의 거리가 멀게 되면 분산이 크다고 말합니다. 다트를 던지는 행위를 예측이라고 해봅시다. 이때 각 다트들의 위치는 곧 예측값이, 과녁의 중심은 실제값이 됩니다. 이를 통해 편향과 분..
2022.02.14
no image
Cosine Similarity(코사인 유사도)와 Euclidean Distance(유클리드 거리) 알아보기
Intro 인공지능이 주어진 문제를 해결하기 위해서는 Feature(특성)을 적절하게 숫자로 변환해주어야 합니다. 특성을 성공적으로 숫자로 변환하는데 성공했다고 가정한다면, 특성은 벡터의 형태로 표현할 수 있습니다. 서로 다른 두 특성 벡터 사이의 관계를 분석하기 위해선 여러 기준이 있습니다. 이번 포스팅에선 그 중에서 많이 활용되는 Cosine 유사도와 Euclidean 거리에 대해서 알아보겠습니다. Cosine 유사도 코사인 유사도는 두 벡터의 내적을 벡터의 크기로 정규화하여 구하기 때문에, 두 벡터 사이 각도에 초점이 맞춰져있습니다. 따라서 각 Feature의 값 편차가 클 경우 효과적으로 사용할 수 있는 지표입니다. Euclidean(유클리드) 거리 유클리드 거리는 두 벡터 사이 차 성분을 제곱한..
2022.01.31
no image
Classification Metrics(분류 모델 평가 지표) 알아보기 : Accuracy, Precision, Recall, F1 Score
Intro 여러 분류 모델 중 해결해야 하는 문제의 특성, 데이터 등 다양한 사항을 고려해 몇 개의 모델을 추리는데 성공했다고 가정해봅시다. 이때 가장 성능이 좋은 모델을 선택하기 위해선 얼마나 정확하게 주어진 문제를 해결할 수 있는 지를 수치화하여 비교하는 것이 중요합니다. 모델 평가를 위해 정확성을 수치화하여 나타낸 것을 평가 지표라고 하며, 적절한 평가 지표를 설정하는 것은 매우 중요한 작업입니다. 이번 포스팅에선 기본적인 평가 지표인 Accuracy, Precision, Recall에 대해서 다뤄보겠습니다. Confusion Matrix(혼동 행렬) 분류를 성공적으로 했는지를 확인하기 위해서는 혼동 행렬을 살펴볼 필요가 있습니다. 혼동 행렬이라는 이름처럼 처음에 접했을 때는 매우 헷갈립니다. TP..
2022.01.24
no image
Word Representation이란? - BoW에서 Word2vec까지
Intro 인간이 일상에서 사용하는 언어(자연어)를 컴퓨터에게 이해시키기 위해서 자연어에 담긴 추상적 뜻을 의미있는 숫자들로 바꾸어야 합니다. 자연어를 의미있는 숫자로 바꾸는 작업을 Word Representation(단어 표현)이라고 합니다. 이번 포스팅에선 자연어를 더 잘 표현할 수 있도록 제안된 다양한 방법에 대해서 다뤄보겠습니다. Word Representation? 단어 표현은 크게 Local, Continuous 표현으로 구분됩니다. Local 표현의 경우 해당 단어 자체만을 참고하기 때문에 뉘앙스(nuance)을 담지 못하지만 Continuous 표현의 경우 단어 주위를 참고하기 때문에 뉘앙스를 담을 수 있다는 장점이 있습니다. BOW와 Word2Vec이 각각 유명한 Local, Contin..
2022.01.17