mPLUG1 [Paper Review] mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections 논문 리뷰 본 글은 https://arxiv.org/abs/2205.12005 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 cross-modal 이해와 생성을 위한 새로운 vision-language 기반으로 하는 mPLUG 모델을 제시한다. 대부분 pre-trained 모델들은 낮은 계산 효율성과 정보 비대칭 문제를 가지고 있다. 이러한 문제들을 해결하기 위한 mPLUG는 cross-modal skip-connection을 가진 vision-language 아키텍쳐를 가진다. mPLUG는 image captiong, image-text retrieval, visual grounding, visual question answering과 같은 다양한.. 2023. 10. 21. 이전 1 다음