분류 전체보기52 [Paper Review] Faithful Logical Reasoning via Symbolic Chain-of-Thought 본 글은 https://arxiv.org/abs/2405.18357 내용을 기반으로 합니다. ACL 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.Abstract최근 CoT 기법은 LLMs의 이론적 사고 능력을 강화했으나, 여전히 symbolic 표현과 엄격한 추론 규칙에 크게 의존하는 논리적 추론을 처리하는 데 한계를 가질 수 있다. 이에 따라, LLM의 논리적 추론 능력을 강화하기 위해, symbolic 표현과 논리 규칙을 CoT prompting과 통합한 새로운 Symbolic Chain-of-Thought인 SymbCoT라는 LLM 기반 프레임워크를 제안한다. SymbCOT는 다음 과정을 통해 문제를 해결한다. 1) 자연어 맥락을 이.. 2024. 12. 18. [Lecture 11] Image Segmentation and Object Detection 본 강의 학습 목표는 다음과 같다.Semantic Segmentation: Fully Convolutional Network (FCN), In-Network Up-/Down-SamplingObject Detection: R-CNN, Fast R-CNN (RoI Align/Pooling), Faster R-CNN (Region Proposal Network)Instance Segmentation: Mask R-CNN Semantic Segmentation픽셀 하나만 보고 어떤 class에 속하는지 판단하기 어렵다. 픽셀 하나의 주변 것을 보면 class를 판단할 수 있다. 이미지의 작은 영역 패치를 CNN을 통과하여 class를 맞출 수 있다. 우리는 전체 이미지에 대해 모든 픽셀들에 대해 class를 맞.. 2024. 12. 17. [Lecture 10] Attention Mechanism and Transformer 본 강의 학습목표는 다음과 같다.Sequence to Sequence (Seq2Seq) Model: Sequence to Sequence with RNNs, Sequence to Sequence with RNNs and Attention, Image Captioning with RNNs, Image Captioning with RNNs and AttentionTransformer: Transformer, Vision Transformer (ViT)Sequence to Sequence (Seq2Seq) ModelSequence to Sequence 모델은 input과 output 길이가 달라도 되며 시퀀스 데이터를 처리한다. 기계 번역이나 텍스트 요약에 사용할 수 있다.Sequence to Sequence.. 2024. 12. 16. [Lecture 9] Recurrent Neural Network 본 강의 학습 목표는 다음과 같다.Video ProcessingRecurrent Neural Network (RNN): Types of RNN (One-to-many, Many-to-one, Many-to-many), Backpropagation in RNN, Applications of RNN, Problems of RNNLong-Short Term Memory (LSTM)Video Processing지금까지 강의는 3 x H x W 짜리 이미지를 input으로 받아 처리하였다. Video의 경우, 시퀀스가 존재하기 때문에 T x 3 x H x W 짜리로 input으로 받는다. T는 Time 축이다. 이러한 시퀀스 데이터를 처리하기 위해, RNN을 배운다. Recurrent Neural Network.. 2024. 12. 16. [Lecture 8] Training Neural Network 본 강의 학습 목표는 다음과 같다.Normalization: Input data, Feature map, Model weightDeep Learning Hardware: CPU vs GPU, Toeplitz matrixDistributed Training: Model parallelism, Data parallelismNormalization: Input dataInput data의 특징들이 매우 다양한 scale을 가지면 불안정한 학습을 할 수 있다. 따라서, 각 데이터들을 평균이 0이고 표준편차가 1로 normalization을 해준다. 즉, 데이터가 가지고 있는 범위를 조절하여 데이터 분포가 특정 boundary 안에 있게끔 해준다. 이를 통해, 데이터 scale의 민감성을 감소시키고 수렴을 더 빨.. 2024. 12. 16. [Lecture 7] Training Neural Network 본 강의 학습 목표는 다음과 같다.Dataset splittingOptimizerLearning rate / schedulingLoss curve and OverfittingActivation functionsDropoutData augmentationDataset splitting기존 데이터셋을 train / validation / test set으로 분할한다.그러면 train set으로 어떻게 모델을 학습시킬까?전에 배웠던, backpropagation algorithm으로 모델을 학습한다. 단순하게 이미지 한장만으로 학습을 시키지 않는다. train set이 6,000장이 있다고 하면 하나의 이미지로 학습을 할 경우, 전체 데이터셋 분포를 반영하지 않고 불안정한 수렴으로 이끌 수 있다. 그러면 6,.. 2024. 12. 16. [Lecture 6] Convolutional Neural Network & Training Neural Network Convolutional Neural NetworkLecture 5에서 못다룬 ResNet에 대해 알아본다. ResNet ResNet은 152개의 layer를 쌓아 처음으로 사람보다 뛰어난 성능을 보여주었다. AlexNet은 8 layer, GoogleNet은 22 layer를 쌓아올림으로써 성능 향상을 이루었다. 더 깊은 network를 쌓아올릴수록 더 좋은 성능을 이루어질거라고 생각했다. 하지만, 일정 깊이 이후, 성능 하락이 있는 것을 확인하였다. vanishing gradient를 해결하며 deep neural network에 대해 성능 향상을 이룬 "Deep Residual Learning for Image Recognition" 논문 (ResNet)이 등장한다. network가 깊어질수록 ba.. 2024. 12. 16. [Paper Review] Contrasting intra-modal and ranking cross-modal hard negatives to enhance visio-linguistic compositional understanding 본 글은 https://arxiv.org/abs/2306.08832 내용을 기반으로 합니다. CVPR 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 method 위주로 작성합니다.AbstractCLIP과 같은 VLMs는 image-text 이해 능력이 뛰어나며, 이를 통해 zero-shot 이미지 분류, image-text retrieval, text-to-image generation과 같은 여러 downstream task에서 큰 발전을 이뤄냈다. 그러나 기존 VLM들의 구성적 추론 능력은 여전히 미흡한 수준이다. 이러한 한계의 근본적인 원인은 사전학습 데이터셋에서 이미지와 캡션 간의 불충분한 정렬에 있다. 또한, 현재의.. 2024. 12. 12. [Paper Review] Visual SKETCHPAD: Sketching as a Visual Chain of Thought for Multimodal Language Models 본 글은 https://arxiv.org/abs/2406.09403 내용을 기반으로 합니다. NeurIPS 2024에 accept된 논문입니다.혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.그리고 본 글은 computer vision task를 해결하는 method 위주로 작성합니다.Abstract현재 chain-of-thought 및 tool-use 패러다임은 중간 추론 스텝을 텍스트로만 처리한다. 본 연구에서는 MMLM에 visual SKETCHPAD와 이를 활용할 수 있는 도구를 제공하는 프레임워크인 SKETCHPAD를 소개한다. 이 모델은 스스로 그린 시각적 산물을 바탕으로 planning 및 reasoning을 수행한다. 기존의 text-to-image 모델을 활용해.. 2024. 12. 11. 이전 1 2 3 4 ··· 6 다음