lxmert1 [Paper Review] LXMERT: Learning Cross-Modality Encoder Representations from Transformers 본 글은 https://arxiv.org/abs/1908.07490 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractvision과 language의 추론은 시각적 개념, 언어적 의미, 그리고 무엇보다도 두 가지 모달리티 간의 정렬과 관계를 이해하는 것을 요구한다. 따라서, 본 논문은 vision과 language의 연결을 학습하기 위해 LXMERT(Learning Cross-Modality Encoder Representations from Transformers)를 제안한다. LXMERT에서 object relationship encoder, language encoder, cross-modality encoder로 구성된 대규모 Tran.. 2024. 6. 15. 이전 1 다음