본문 바로가기

전체 글28

[Paper Review] Improving Language Understanding by Generative Pre-Training(2018) 본 글은 https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 자연어 이해는 textual entailment, question answering, semantic similarity assessment, 문서 분류 등 다양한 task로 이루어진다. Unlabeled text data는 풍부하지만 labeled text data는 적어서 훈련된 모델이 적절하게 수행하기 어렵다. 본 논문은 다양한 unlabeled text를 사용한 generative pre-training의 언어 모델과 각 .. 2024. 1. 16.
[Paper Review] Deep contextualized word representations(2018) 본 글은 https://arxiv.org/abs/1802.05365 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 유형의 deep contextualized word representation을 소개한다. deep contextualized word representation (1) 단어 사용의 복잡한 특성(syntax and semantics) (2) 이러한 단어가 언어적 맥락에 따라 어떻게 다른지(다의어) 문맥을 학습하기 위해 word vector들을 deep bidirectional language model(biLM)의 방법으로 학습한다. 이를 통해, 6가지 NLP 분야 task에서 SOTA 성능을 달성하였다. 1. Intr.. 2024. 1. 14.
[Paper Review] BERT: Pre-training of Deep Bidirectional transformers for Language Understanding(2019) 본 글은 https://arxiv.org/abs/1810.04805 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 새로운 언어 표현 모델인 Bidirectional Encoder Representations from Transformers(BERT)를 소개한다. BERT는 모든 레이어에서 왼쪽과 오른쪽 문맥을 조정하여 레이블이 없는 텍스트에서 깊은 양방향 표현을 사전훈련하도록 설계되었다. BERT 모델이 등장하기 전 모델들은 문장을 학습할 때 순차적으로(Left to Right) 읽을 수 밖에 없었다. Word embedding의 경우 Transformer를 사용하여 관계성을 잘 파악할 수 있으나 예측을 할 때는 단방향으로 읽어서 예측해야.. 2024. 1. 11.
Sequence to Sequence Learning with Neural Networks 본 내용은 https://arxiv.org/abs/1409.3215 논문을 기반으로 구현한 코드입니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 데이터 전처리 spaCy 라이브러리 : 문장의 토큰화, 태깅 등 전처리 기능을 위한 라이브러리 !python -m spacy download en !python -m spacy download de import spacy spacy_en = spacy.load('en_core_web_sm') # 영어 토큰화 spacy_de = spacy.load('de_core_news_sm') # 독일어 토큰화 - 토큰화 함수 # 독일어 문장을 토큰화한 후 순서를 뒤집는 함수 def tokenize_de(text): return [token.. 2024. 1. 4.
[Paper Review] Attention Is All You Need 본 글은 https://arxiv.org/abs/1706.03762 내용을 기반으로 합니다. 본 논문의 Architecture을 시각적으로 쉽게 표현한 https://jalammar.github.io/illustrated-transformer 글을 참고합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 attention 메커니즘을 이용하여 encoder와 decoder를 연결하여 새롭고 간단한 네트워크 아키텍처인 Transformer를 제안한다. Transformer는 WMT 2014 번역 작업에서 좋은 성능을 보여준다. 그리고 GPT, BERT 모델 등 엄청난 영향을 미치게 된다.. 1. Introduction RNN, LSTM, Gated RNN는 시퀀스 .. 2023. 12. 15.
[Paper Review] Visual Instruction Tuning 본 글은 https://arxiv.org/abs/2304.08485 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 눈문은 language-image instruction-following data를 생성하기 위해 GPT-4를 사용한다. 그리고 vision encoder와 LLM을 연결한 LLaVA(Large Language and Vision Assistant)를 소개한다. LLaVA는 Science QA에서 SOTA 성능을 달성하였다. 1. Introduction 이 논문의 contribution을 요약하면 다음과 같다. Multimodal instruction-following data Vision-Language instruction-fol.. 2023. 11. 13.
[Paper Review] Rich feature hierarchies for accurate object detection and semantic segmentation 본 글은 https://arxiv.org/abs/1311.2524 내용을 기반으로 합니다. 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. 본 논문은 mAP 30% 이상 높여 53.3%를 달성한 object detection 알고리즘을 제시한다. 알고리즘의 핵심은 region proposal에 CNN을 적용하고 pre-training과 fine-tuning을 적용해 성능을 높였다. 이를, R-CNN(Regions with CNN features)라고 부른다. 1. Introduction 오랜 기간 동안 시각 인지 분야에서는 SIFT와 HOG 알고리즘을 사용하였으나 이는 object detection 성능을 많이 높이지 못하였다. 이후 back-propagation이 가능한 S.. 2023. 11. 13.
Stanford CS224N - Lecture 2. Neural Classifiers 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. Optimization 1. Gradient Descent Optimization은 지난 Lecture 1에서 다룬 Word2Vec의 object function인 J(Θ)를 최소로 하는 것을 목표로 한다. Gradient Descent 식은 다음과 같다. Object function을 최소화하는 parameter를 찾기 위한 Gradient Descent는 전체 데이터에 대해 계산이 이루어지기 때문에 계산량이 너무 많으며 시간도 오래 걸린다. 2. Stochastic Gra.. 2023. 10. 27.
Stanford CS224N - Lecture 1. Intro & Word Vectors 본 글은 Stanford CS224N: NLP with Deep Learning | Winter 2021 내용을 기반으로 합니다. 강의를 듣고 정리한 글로 혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다. How to represent words meaning 1. WordNet 간단한 방법으로는 WordNet과 같이 유의어(synonym)와 상위어(hypernym) 사전을 사용. 어휘 사전의 문제점 - 단어에 대한 의미의 차이가 있음 - 신조어에 대해 일일이 반영해 주기 힘듦 - 주관적임 - 단어와 단어 간의 유사도를 계산할 수 없음 2. One-hot Vector - 단어를 벡터로 표현할 수 있는 가장 간단한 방법 - 단어를 discrete symbols로 여기며 local.. 2023. 10. 23.