
[논문 리뷰] Attention Is All You Need(Transformer) 논문 정리
논문 리뷰
2023. 3. 25. 05:48
Abstract CNN, RNN을 활용한 모델에 Attention을 활용했을 때, 좋은 결과를 얻을 수 있었다. 따라서 Attention을 기반에 둔 Tramsformer라는 모델을 제안한다. 이때, RNN과 CNN을 제거해서 행렬곱만으로 연산을 수행하도록 한다. 이 모델을 사용했을 때, SOTA급 성능을 독일어, 프랑스어의 번역에서 볼 수 있었다. 8개의 GPU를 이용하여 테스트를 진행했을 때, 이전의 모델보다 훨씬 개선된 결과를 얻을 수 있었다. 대표적으로 구문 분석 분야에서 효과적인 결과를 활용할 수 있었다. 1. Introduction 기존의 딥러닝 모델인 RNN, LSTM, GRU는 연속적인 모델링에서 뛰어난 성과를 보였다. 하지만 이러한 연속성을 띄기 위해 여러 Hidden State를 생성하..