Paper Review Code2 [Paper Review Code] Attention Is All You Need (2) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Text 전처리와 Encoder 구현은 저번 글에서 알아보았으니 이젠 Decoder 부분을 구현하고 전체 Transformer를 이용해 학습해보는 것을 알아보겠다. (Encoder 부분은 이전 글 참고) 디코더 디코더는 인코더와 다르게 두 개의 attention 층을 가지고 있다. Masked Multi-head self-attention : timestep마다 지난 출.. 2024. 3. 11. [Paper Review Code] Attention Is All You Need (1) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Transformer는 크게 인코더-디코더 아키텍처를 가진다. 아래 그림을 보면 상단이 인코더, 하단이 디코더이다. 인코더 인코더 층을 자세히 보면 아래 그림과 같다. 토큰화 import spacy spacy_en = spacy.load('en_core_web_sm') # 영어 토큰화 spacy_de = spacy.load('de_core_news_sm') # 독일어 토.. 2024. 3. 10. 이전 1 다음