본문 바로가기

Paper Review14

[Paper Review] BERT: Pre-training of Deep Bidirectional transformers for Language Understanding(2019) 본 글은 https://arxiv.org/abs/1810.04805 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 언어 표현 모델인 Bidirectional Encoder Representations from Transformers(BERT)를 소개한다. BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 조정하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전훈련하도록 설계되었다. BERT 모델이 등장하기 전 모델들은 문장을 학습할 때 순차적으로(Left to Right) 읽을 수 밖에 없었다. Word embedding의 경우 Transformer를 사용하여 관계성을 잘 파악할 수 있으나 예측을 할 때는 단방향으로 읽어서 예측해야.. 2024. 1. 11.
[Paper Review] Attention Is All You Need 본 글은 https://arxiv.org/abs/1706.03762 내용을 기반으로 합니다. 본 논문의 Architecture을 시각적으로 쉽게 표현한 https://jalammar.github.io/illustrated-transformer 글을 참고합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 attention 메커니즘을 이용하여 encoder와 decoder를 연결하여 새롭고 간단한 네트워크 아키텍처인 Transformer를 제안한다. Transformer는 WMT 2014 번역 작업에서 좋은 성능을 보여준다. 그리고 GPT, BERT 모델 등 엄청난 영향을 미치게 된다.. 1. Introduction RNN, LSTM, Gated RNN는 시퀀스 .. 2023. 12. 15.
[Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다. 그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다. LLaVA는 Science QA에서 SOTA 성능을 달성하였다. 1. Introduction 이 논문의 contribution을 요약하면 다음과 같다. Multimodal instruction-following data Vision-Language instruction-fol.. 2023. 11. 13.
[Paper Review] Rich feature hierarchies for accurate object detection and semantic segmentation 본 글은 https://arxiv.org/abs/1311.2524 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 mAP 30% 이상 높여 53.3%를 달성한 object detection 알고리즘을 제시한다. 알고리즘의 핵심은 region proposal에 CNN을 적용하고 pre-training과 fine-tuning을 적용해 성능을 높였다. 이를, R-CNN(Regions with CNN features)라고 부른다. 1. Introduction 오랜 기간 동안 시각 인지 분야에서는 SIFT와 HOG 알고리즘을 사용하였으나 이는 object detection 성능을 많이 높이지 못하였다. 이후 back-propagation이 가능한 S.. 2023. 11. 13.
[Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰 본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다. 대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다. 이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다. mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한.. 2023. 10. 21.