paper reveiw1 [Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning 본 글은 https://arxiv.org/abs/2204.14198 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract소수의 주석이 달린 예제만을 사용하여 새로운 task에 빠르게 적응할 수 있는 모델을 구축하는 것은 멀티모달 머신러닝 연구에서 풀리지 않은 과제이다. 본 논문은 이러한 능력을 가진 Visual Language Models (VLM)인 Flamingo를 소개한다. 본 논문은 다음과 같은 주요 구조적 혁신을 제안한다. (1) 강력하게 사전학습된 비전 전용 및 언어 전용 모델을 연결, (2) 임의로 교차된 시각적 및 텍스트 데이터 처리, (3) input으로 이미지나 비디오를 원활하게 수용. 이러한 유연성 덕분에 Flamingo 모.. 2024. 8. 30. 이전 1 다음