
[논문 리뷰] Towards Understanding and Mitigating Social Biases in Language Models
논문 리뷰
2023. 4. 10. 20:09
Abstract 머신러닝 기술이 사회에서 신뢰성이 중요한 결정 과정에서의 중요한 역할을 담당함에 따라, 사회적 편견과 고정관념의 형성 과정을 인식하는 것이 중요해짐 실제 환경에서 대규모 사전 학습 언어 모델 등의 머신러닝 모델이 잠재적으로 위험한 것으로 나타남 성별, 인종, 종교 및 사회 구성에서 부정적인 일반화를 유도하는 편향을 포함하는 것으로 알려짐 이러한 공정성을 개선하기 위해, 새로운 벤치마크와 메터릭을 제안하고, 측정하는 방법을 제시함 이러한 도구들을 이용해 텍스트 생성 과정에서 편향을 완화하기 위한 기법을 제안 실험 결과 및 인간 평가는 편향을 완화하면서 고정적인 문맥 정보를 유지하므로 고성능-공정성 Pareto frontier을 전진시키는 효과를 보여줌 1. Introduction 머신러닝 ..