본문 바로가기

paper review12

[Paper Review] BERT: Pre-training of Deep Bidirectional transformers for Language Understanding(2019) 본 글은 https://arxiv.org/abs/1810.04805 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 언어 표현 모델인 Bidirectional Encoder Representations from Transformers(BERT)를 소개한다. BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 조정하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전훈련하도록 설계되었다. BERT 모델이 등장하기 전 모델들은 문장을 학습할 때 순차적으로(Left to Right) 읽을 수 밖에 없었다. Word embedding의 경우 Transformer를 사용하여 관계성을 잘 파악할 수 있으나 예측을 할 때는 단방향으로 읽어서 예측해야.. 2024. 1. 11.
[Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다. 그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다. LLaVA는 Science QA에서 SOTA 성능을 달성하였다. 1. Introduction 이 논문의 contribution을 요약하면 다음과 같다. Multimodal instruction-following data Vision-Language instruction-fol.. 2023. 11. 13.
[Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰 본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다. 대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다. 이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다. mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한.. 2023. 10. 21.