범블로그
article thumbnail
[논문 리뷰] Towards Understanding and Mitigating Social Biases in Language Models
논문 리뷰 2023. 4. 10. 20:09

Abstract 머신러닝 기술이 사회에서 신뢰성이 중요한 결정 과정에서의 중요한 역할을 담당함에 따라, 사회적 편견과 고정관념의 형성 과정을 인식하는 것이 중요해짐 실제 환경에서 대규모 사전 학습 언어 모델 등의 머신러닝 모델이 잠재적으로 위험한 것으로 나타남 성별, 인종, 종교 및 사회 구성에서 부정적인 일반화를 유도하는 편향을 포함하는 것으로 알려짐 이러한 공정성을 개선하기 위해, 새로운 벤치마크와 메터릭을 제안하고, 측정하는 방법을 제시함 이러한 도구들을 이용해 텍스트 생성 과정에서 편향을 완화하기 위한 기법을 제안 실험 결과 및 인간 평가는 편향을 완화하면서 고정적인 문맥 정보를 유지하므로 고성능-공정성 Pareto frontier을 전진시키는 효과를 보여줌 1. Introduction 머신러닝 ..

article thumbnail
[논문 리뷰] Self-Diagnosis and Self-Debiasing: A Proposal for Reducing Corpus-Based Bias in NLP
논문 리뷰 2023. 4. 6. 02:45

Abstract 이 논문에는 노골적으로 노골적인 용어와 모델 출력이 포함되어 있음 인터넷에서 수집한 대규모 데이터도 마찬가지 수많은 데이터를 이용해 학습하기 때문에 이러한 문제에서 벗어나기는 어려움 그래서 본 논문에서는 pre-train된 Language Model의 Self-diagnosis(자체 진단 기능)을 통해 모델 스스로 bias와 generate하는 문장의 toxic의 정도를 측정하도록 함 측정 결과를 바탕으로 텍스트 설명을 활용한 decoding 알고리즘인 self-debiasing을 제안 텍스트 설명 모델 사용자가 "성별에 따라서 급여가 차별적으로 결정되는 것은 문제가 됩니다"와 같은 텍스트 설명을 제공할 수 있음 이를 통해 모델이 "남자"나 "여자"와 같은 단어를 사용하여 성별에 따른 급..