
[논문 리뷰] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP
논문 리뷰
2023. 4. 6. 02:45
Abstract 이 논문에는 노골적으로 노골적인 용어와 모델 출력이 포함되어 있음 인터넷에서 수집한 대규모 데이터도 마찬가지 수많은 데이터를 이용해 학습하기 때문에 이러한 문제에서 벗어나기는 어려움 그래서 본 논문에서는 pre-train된 Language Model의 Self-diagnosis(자체 진단 기능)을 통해 모델 스스로 bias와 generate하는 문장의 toxic의 정도를 측정하도록 함 측정 결과를 바탕으로 텍스트 설명을 활용한 decoding 알고리즘인 self-debiasing을 제안 텍스트 설명 모델 사용자가 "성별에 따라서 급여가 차별적으로 결정되는 것은 문제가 됩니다"와 같은 텍스트 설명을 제공할 수 있음 이를 통해 모델이 "남자"나 "여자"와 같은 단어를 사용하여 성별에 따른 급..