good embedding을 얻을 수 있다고 알려진 NLI 데이터셋을 입력받아 SBERT fine-tuning
각 문장의 embedidng을 pooling(MEAN, MAX, [CLS])을 통해서 얻음
MEAN pooling일 때 가장 좋은 결과
embedding을 다양한 조합으로 concat후 Classification 진행
$u, v, |u-v|$의 조합일 때가 가장 좋은 결과
NLI 데이터셋에 맞게 3 - way Softmax classifier 사용
Regression Objective
STS 데이터셋으로 fine-tuning하거나 inference할 때 사용
fine-tuning 때 cosine-similarity와 Label(0~1 scaling 필요) 사이의 MSE를 loss function으로 활용
각 문장의 embedidng을pooling(MEAN, MAX, [CLS])을 통해서 얻음
MEAN pooling일 때 가장 좋은 결과
Triplet Objective
embedding을 얻기 위해서 Wikipedia section triplets dataset (Dor et al., 2018) 활용
동일 section이면 Positive, 다른 section이면 Negative로 가정 후 생성된 데이터셋
$\epsilon$(margin) = 1로 설정
4. 성능 평가
(1) sentence-embedding 사이 cosine similarity와 Label 간 상관 계수(Spearman) 측정
sentence embedding 추출에 적합하다고 알려진 NLI 데이터셋으로 fine-tuning
모델이 잘 학습됐다면 아직 보지 못한 다른 문장에 대해서도 good embedding을 얻을 수 있음
good embedding인지를 검증하기 위해서 STS 데이터셋를 활용
STS 데이터셋의 입력 문장 사이 embedding cosine similarity와 Label간 상관 계수 측정
good embedidng이라면 similarity와 Label 사이 높은 상관 관계를 가질 것
기존 BERT의 경우 매우 낮은 상관 계수 기록했기 때문에 bad embedding을 생성함을 확인
SICK-R의 경우 여러 주제를 다루고 있기 때문에 다양한 데이터셋으로 학습한 Universal Sentence Encoder보다 낮은 점수 기록
평균적으로SBERT(SRoBERTa)가 가장 높은 점수 기록했기 때문에 좋은 sentence embedding을 얻을 수 있음을 확인
(2) STS benchmark
NLI fine-tuning(good embedding) 후 STS fine-tuning 시 가장 높은 성능 기록
두 입력 문장을 한번에 받아 self-attention하는 BERT보단 성능이 낮지만 sentence-embedding 추출만으로도 좋은 성능 달성
(3) Argument Facet Similarity(AFS) 스코어
AFS ?
총기 규제, 동성 결혼, 사형 제도에 대한 찬반 대화를 담은 데이터셋
Topic 마다 다른 어휘가 나오고 주장 및 근거를 모두 고려해야지만 유사도를 판별할 수 있기 때문에
단순 서술 위주의 문장을 가진 STS 데이터셋보다 난이도가 높은 데이터셋
AFS에서의 성능은 10 - fold cross validation과 Cross-Topic으로 확인
Cross-Topic : 2가지 Topic으로 훈련 후 나머지 Topic으로 테스트
AFS 데이터의 특성상 새로운 Topic에서 성능을 확인하는 Cross-Topic 방법이 더 난이도가 높음
데이터 예시
Predicted similarities (sorted by similarity):
Sentence A: Eating meat is not cruel or unethical; it is a natural part of the cycle of life.
Sentence B: It is cruel and unethical to kill animals for food when vegetarian options are available
Similarity: 0.99436545
Sentence A: Zoos are detrimental to animals' physical health.
Sentence B: Zoo confinement is psychologically damaging to animals.
Similarity: 0.99386144
[...]
Sentence A: It is cruel and unethical to kill animals for food when vegetarian options are available
Sentence B: Rising levels of human-produced gases released into the atmosphere create a greenhouse effect that traps heat and causes global warming.
Similarity: 0.0057242378