본문 바로가기

전체 글52

[Lecture 1] Image Classification and Classifiers 딥러닝영상인식1 강의를 정리하고 복습하고자 이 글을 작성한다.Image Classification 다음과 같은 내용을 중심으로 강의를 진행한다.Regression vs ClassificationWhat is Image Classfication?Why is image classification important?Challenges of Image Classification Regression vs ClassificationRegression(회귀) : input x로부터 continous한 output y를 출력Classification(분류) : input x로부터 discrete한 output y를 출력 Types of ClassificationBinary ClassificationMulti-class.. 2024. 9. 6.
[Paper Review] Flamingo: a Visual Language Model for Few-Shot Learning 본 글은 https://arxiv.org/abs/2204.14198 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract소수의 주석이 달린 예제만을 사용하여 새로운 task에 빠르게 적응할 수 있는 모델을 구축하는 것은 멀티모달 머신러닝 연구에서 풀리지 않은 과제이다. 본 논문은 이러한 능력을 가진 Visual Language Models (VLM)인 Flamingo를 소개한다. 본 논문은 다음과 같은 주요 구조적 혁신을 제안한다. (1) 강력하게 사전학습된 비전 전용 및 언어 전용 모델을 연결, (2) 임의로 교차된 시각적 및 텍스트 데이터 처리, (3) input으로 이미지나 비디오를 원활하게 수용. 이러한 유연성 덕분에 Flamingo 모.. 2024. 8. 30.
[Paper Review] SimVLM: Simple Visual Language Model Pretraining with Weak Supervision 본 글은 https://arxiv.org/abs/2108.10904 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract최근 시각적 및 텍스트 표현의 공동 모델링의 진전으로 인해, Vision-Language Pretraining (VLP)은 많은 멀티모달 downstream task에서 인상적인 성능을 달성했다. 그러나 깨끗한 이미지 캡션과 regional label을 포함한 비싼 주석의 필요성은 기존 접근법의 확장성을 제한하고 여러 데이터셋별 objective의 도입으로 사전훈련 절차를 복잡하게 만든다. 이 연구에서는 이러한 제약을 완화하고 Simple Visual Language Model (SimVLM)이라는 최소한의 사전 훈련 프레임워.. 2024. 8. 2.
[Paper Review] Zero-Shot Text-to-Image Generation 본 글은 https://arxiv.org/abs/2102.12092 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstracttext-to-image 생성은 전통적으로 고정된 데이터셋으로 학습할 때 더 나은 모델링을 찾는 것에 중점을 둔다. 이러한 가정은 복잡한 아키텍처, auxiliary loss, 또는 학습 중에 제공되는 객체 부분 레이블이나 segmentation mask와 같은 부가 정보를 포함할 수 있다. 텍스트와 이미지 토큰을 single stream of data로 autoregressive하게 모델링하는 transformer에 기반한 간단한 접근 방식을 설명한다. 충분한 데이터와 규모가 주어지면, 본 연구의 접근 방식은 zero-sho.. 2024. 7. 28.
[Paper Review] BEIT: BERT Pre-Training of Image Transformers 본 글은 https://arxiv.org/abs/2106.08254 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractImage Transformer에서 양방향 인코더 표현을 의미하는 BEIT(Bidirectional Encoder representation from Image Transformers)라는 serlf-supervised vision representation 모델을 소개한다. 자연어 처리 분야에서 개발된 BERT를 따르며, vision Transformer를 사전 훈련하기 위해 masked image modeling task를 제안한다. 구체적으로, 사전 훈련에서는 각 이미지가 두 가지 뷰, 즉 이미지 패치(예: 16x16 픽.. 2024. 7. 20.
[Paper Review] Align before Fuse: Vision and Language Representation Learning with Momentum Distillation 본 글은 https://arxiv.org/abs/2107.07651 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract대규모 비전과 언어 표현 학습은 다양한 vision-language task에서 유망한 개선을 보여주었다. 대부분의 기존 방법들은 시각적 토큰(영역 기반 이미지 특징)과 단어 토큰들을 같이 모델링하기 위해 transformer 기반의 multimodal 인코더를 사용한다. 시각적 토큰과 단어 토큰이 정렬되지 않기 때문에, multimodal 인코더가 image-text 상호작용을 학습하는 것은 도전적이다. 본 논문에서는 cross-modal attention을 통해 이미지와 텍스트 표현을 융합하기 전에 contrastive l.. 2024. 7. 16.
[Paper Review] Learning Transferable Visual Models From Natural Language Supervision 본 글은 https://arxiv.org/abs/2103.00020 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract이미지에 대한 원시 텍스트로부터 직접 학습하는 것은 더 광범위한 supervision을 활용하는 유망한 방법이다. 본 논문은 인터넷에서 수집한 4억 개의(이미지, 텍스트) 쌍 데이터셋을 사용하여 처음부터 최첨단 이미지 표현을 학습하는 효율적이고 확장 가능한 방법으로 어떤 캡션이 어떤 이미지와 일치하는지 예측하는 간단한 pre-training task를 보여준다. pre-training 후, 자연어를 사용하여 학습된 시각적 개념을 참조하거나 새로운 개념을 설명할 수 있으며 이를 통해 모델을 downstream task에 zero.. 2024. 7. 6.
[Paper Review] UNITER: UNiversal Image-TExt Representation Learning 본 글은 https://arxiv.org/abs/1909.11740 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractimage-text 임베딩은 대부분의 Vision-and-Language (V+L) task의 기초로 multimodality input이 동시에 처리되어 시각적 및 텍스트 이해를 공동으로 수행한다. 본 논문에서는 네 가지 image-text 데이터셋(COCO, Visual Genome, Conceptual Captions, SBU Captions)에 대해 대규모 pre-training을 통해 학습된 UNITER(UNiversal Image-TExt Representation)를 소개한다. 이는 multimodal 임베딩을 통해 V+.. 2024. 6. 15.
[Paper Review] LXMERT: Learning Cross-Modality Encoder Representations from Transformers 본 글은 https://arxiv.org/abs/1908.07490 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstractvision과 language의 추론은 시각적 개념, 언어적 의미, 그리고 무엇보다도 두 가지 모달리티 간의 정렬과 관계를 이해하는 것을 요구한다. 따라서, 본 논문은 vision과 language의 연결을 학습하기 위해 LXMERT(Learning Cross-Modality Encoder Representations from Transformers)를 제안한다. LXMERT에서 object relationship encoder, language encoder, cross-modality encoder로 구성된 대규모 Tran.. 2024. 6. 15.