분류 전체보기52 [Paper Review] BERT: Pre-training of Deep Bidirectional transformers for Language Understanding(2019) 본 글은 https://arxiv.org/abs/1810.04805 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 언어 표현 모델인 Bidirectional Encoder Representations from Transformers(BERT)를 소개한다. BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 조정하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전훈련하도록 설계되었다. BERT 모델이 등장하기 전 모델들은 문장을 학습할 때 순차적으로(Left to Right) 읽을 수 밖에 없었다. Word embedding의 경우 Transformer를 사용하여 관계성을 잘 파악할 수 있으나 예측을 할 때는 단방향으로 읽어서 예측해야.. 2024. 1. 11. Sequence to Sequence Learning with Neural Networks 본 내용은 https://arxiv.org/abs/1409.3215 논문을 기반으로 구현한 코드입니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 데이터 전처리 spaCy 라이브러리 : 문장의 토큰화, 태깅 등 전처리 기능을 위한 라이브러리 !python -m spacy download en !python -m spacy download de import spacy spacy_en = spacy.load('en_core_web_sm') # 영어 토큰화 spacy_de = spacy.load('de_core_news_sm') # 독일어 토큰화 - 토큰화 함수 # 독일어 문장을 토큰화한 후 순서를 뒤집는 함수 def tokenize_de(text): return [token.. 2024. 1. 4. [Paper Review] Attention Is All You Need 본 글은 https://arxiv.org/abs/1706.03762 내용을 기반으로 합니다. 본 논문의 Architecture을 시각적으로 쉽게 표현한 https://jalammar.github.io/illustrated-transformer 글을 참고합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 attention 메커니즘을 이용하여 encoder와 decoder를 연결하여 새롭고 간단한 네트워크 아키텍처인 Transformer를 제안한다. Transformer는 WMT 2014 번역 작업에서 좋은 성능을 보여준다. 그리고 GPT, BERT 모델 등 엄청난 영향을 미치게 된다.. 1. Introduction RNN, LSTM, Gated RNN는 시퀀스 .. 2023. 12. 15. [Paper Review] Rich feature hierarchies for accurate object detection and semantic segmentation 본 글은 https://arxiv.org/abs/1311.2524 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 mAP 30% 이상 높여 53.3%를 달성한 object detection 알고리즘을 제시한다. 알고리즘의 핵심은 region proposal에 CNN을 적용하고 pre-training과 fine-tuning을 적용해 성능을 높였다. 이를, R-CNN(Regions with CNN features)라고 부른다. 1. Introduction 오랜 기간 동안 시각 인지 분야에서는 SIFT와 HOG 알고리즘을 사용하였으나 이는 object detection 성능을 많이 높이지 못하였다. 이후 back-propagation이 가능한 S.. 2023. 11. 13. Stanford CS224N - Lecture 2. Neural Classifiers 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Optimization 1. Gradient Descent Optimization은 지난 Lecture 1에서 다룬 Word2Vec의 object function인 J(Θ)를 최소로 하는 것을 목표로 한다. Gradient Descent 식은 다음과 같다. Object function을 최소화하는 parameter를 찾기 위한 Gradient Descent는 전체 데이터에 대해 계산이 이루어지기 때문에 계산량이 너무 많으며 시간도 오래 걸린다. 2. Stochastic Gra.. 2023. 10. 27. Stanford CS224N - Lecture 1. Intro & Word Vectors 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. How to represent words meaning 1. WordNet 간단한 방법으로는 WordNet과 같이 유의어(synonym)와 상위어(hypernym) 사전을 사용. 어휘 사전의 문제점 - 단어에 대한 의미의 차이가 있음 - 신조어에 대해 일일이 반영해 주기 힘듦 - 주관적임 - 단어와 단어 간의 유사도를 계산할 수 없음 2. One-hot Vector - 단어를 벡터로 표현할 수 있는 가장 간단한 방법 - 단어를 discrete symbols로 여기며 local.. 2023. 10. 23. [Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰 본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다. 대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다. 이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다. mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한.. 2023. 10. 21. 이전 1 ··· 3 4 5 6 다음