본문 바로가기

transformer3

[Lecture 10] Attention Mechanism and Transformer 본 강의 학습목표는 다음과 같다.Sequence to Sequence (Seq2Seq) Model: Sequence to Sequence with RNNs, Sequence to Sequence with RNNs and Attention, Image Captioning with RNNs, Image Captioning with RNNs and AttentionTransformer: Transformer, Vision Transformer (ViT)Sequence to Sequence (Seq2Seq) ModelSequence to Sequence 모델은 input과 output 길이가 달라도 되며 시퀀스 데이터를 처리한다. 기계 번역이나 텍스트 요약에 사용할 수 있다.Sequence to Sequence.. 2024. 12. 16.
[Paper Review Code] Attention Is All You Need (2) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Text 전처리와 Encoder 구현은 저번 글에서 알아보았으니 이젠 Decoder 부분을 구현하고 전체 Transformer를 이용해 학습해보는 것을 알아보겠다. (Encoder 부분은 이전 글 참고) 디코더 디코더는 인코더와 다르게 두 개의 attention 층을 가지고 있다. Masked Multi-head self-attention : timestep마다 지난 출.. 2024. 3. 11.
[Paper Review Code] Attention Is All You Need (1) 본 내용은 https://arxiv.org/abs/1706.03762 논문을 기반으로 하고 https://github.com/ndb796/Deep-Learning-Paper-Review-and-Practice에서 Transformer 구현 코드를 참고하였습니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Transformer는 크게 인코더-디코더 아키텍처를 가진다. 아래 그림을 보면 상단이 인코더, 하단이 디코더이다. 인코더 인코더 층을 자세히 보면 아래 그림과 같다. 토큰화 import spacy spacy_en = spacy.load('en_core_web_sm') # 영어 토큰화 spacy_de = spacy.load('de_core_news_sm') # 독일어 토.. 2024. 3. 10.