본문 바로가기

전체 글52

[Paper Review] Investigating and Mitigating Object Hallucinations in Pretrained Vision-Language (CLIP) Models 본 글은 https://arxiv.org/abs/2410.03176 내용을 기반으로 합니다. 본 논문은 EMNLP 2024에서 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.AbstractLarge Vision-Language Models (LVLMs)는 인상적인 성능을 달성했지만, 연구에 따르면 이러한 모델에서 object hallucination이라는 심각한 문제가 지적되고 있다. 그러나, 이러한 hallucination이 모델의 어느 부분에서 비롯되는지에 대한 명확한 결론이 없다. 본 논문에서는 많은 SOTA vision-language system의 기반이 되는 CLIP 모델에서 object hallucination 문제에 대한 심층적인 조사를 제시한다... 2024. 11. 29.
[Paper Review] Improved Baselines with Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2310.03744 내용을 기반으로 합니다. 본 논문은 CVPR 2024에서 highlight로 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 논문의 contribution은 다음과 같다.LLaVA 프레임워크 기반으로 더 강력한 baseline 구축LMM의 해결되지 않은 문제들에 대해 탐구 AbstractLarge multimodal models (LMM)은 최근 visual instruction tuning을 통해 진전을 보여주었다. 본 논문에서는 LLaVA 프레임워크에 따라 통제된 설정에서 LMM의 design 선택을 조사하기 위한 최초의 체계적인 연구를 제시한다. LLaVA에서 fully-connected.. 2024. 11. 21.
[Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 본 논문은 NeurIPS 2023 oral에서 소개되었습니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다.그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다.LLaVA는 Science QA에서 SOTA 성능을 달성하였다. Abstractmachine이 생성한 instruction-following data를 사용한 instruction tuning LLM들은 새로운 task에.. 2024. 11. 8.
[Paper Review] BLIP-2: Bootstrapping Language-Image Pre-training with Frozen Image Encoders and Large Language Models 본 글은 https://arxiv.org/abs/2301.12597 내용을 기반으로 합니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract큰 모델을 end-to-end 학습하는 것으로 인해 VLP 비용은 점점 증가하고 있다. 본 논문은 frozen pre-trained image encoder와 frozen LLM을 사용하여 VLP를 bootstrap하는 일반적이고 효율적인 사전학습 전략이 BLIP-2를 제안한다. BLIP-2는 two-stage로 경량 Querying Transformer를 이용해 모달리티 격차를 줄인다. first stage는 frozen image encoder로부터 vision-language representation learning을 .. 2024. 10. 28.
[Lecture 5] Convolutional Neural Network (CNN) 본 강의 학습목표는 다음과 같다.LeNetILSVR Challenge - 2012: Alexnet, 2013: ZFNet, 2014: VGGNet, 2015: ResNetLeNetLeNet is not the very first neural network, it is widely considered one of the first successul applications of convolutional layers. LeNet is developed for handwritten digit recognition on the MNIST dataset.LeNet은 "Gradient-based learning applied to document recognition" 논문에서 1998년에 소개되었다. LeNet의 .. 2024. 10. 21.
[Lecture 4] Convolution 본 강의에서의 학습목표는 다음과 같다.The problem of the Linear classifierWhat is a Convolution layer - convolution, stride, paddingWhat is a Pooling layer - why do we need pooling?, max pooling, average poolingRecall: One Problem of the Linear ClassifierA linear classifier creates a straight decision boundary between the classesWhen the data points are not linearly separable, a linear classifier cannot perfectl.. 2024. 10. 21.
[Lecture 3] Backpropagation 이번 강의에서의 학습목표는 다음과 같다.What is Backpropagation Algorithm?Backpropagation with Linear ClassifierBackpropagation with Neural NetworkBackpropagation with Vector/MatrixBack-propagation은 1986년에 "Learning Representations by Back-Propagating Errors" 논문에서 소개된 방법이다. 보통 2012년에 딥러닝이 시작되었다하고 2016~2017년에 활발히 연구가 시작되었다. Image Classification에서는 Input과 weight가 곱해져서 output 값을 만든다. 그 후, 실제 값과 output 값의 차이를 loss fu.. 2024. 10. 20.
[Lecture 1] Language Models and RNNs 오늘 강의에서 초점을 맞출 것은 Language Model이란 무엇인가. 그리고 가장 기본적인 형태의 Language Model은 무엇이 있고 RNN은 어떠한 형태로서 활용이 되면서 우리가 Language Model을 어떻게 만들어 나가는지 간략하게 설펴보도록 한다. 그래서 오늘 배울 것은 크게 두 가지이다.1. Language Modeling은 무엇인가.2. Recurrent Neural Networks (RNNs)는 어떤 형태로 구성되어 있는 네트워크인가. Language Modeling이라는 개념은 상당히 중요한 개념이다. 현재 사용하고 있는 도구들 혹은 방법론들이 Language Modeling을 기반으로 하고 있다(ex. BERT, GPT-3, ChatGPT 등).1. Language Model.. 2024. 10. 1.
[Lecture 2] Neural Network and Loss Function 이번 강의는 Neural Network와 Loss Function에 관해 학습한다. Neural Network에서의 학습목표는 다음과 같다.Why is a Linear Classifier called a Linear Classifier?The problem of a Linear Classifier (Linear vs Non-linear)Neural NetworkActivation Function저번 강의에서 했던 내용을 잠깐 복습하면 다음과 같다. 32x32x3 짜리 이미지가 있을 경우, linear classifier를 통해 세 가지 class에 대한 점수를 계산할 수 있었다. 이미지 데이터가 3차원이 아니라 숫자 하나라해도 그대로 세 가지 클래스에 대해서 점수가 나온다. 다만, 여기서는 일차방정식이 .. 2024. 9. 24.