혹시 잘못된 부분이나 수정할 부분이 있다면 댓글로 알려주시면 감사하겠습니다.
Likelihood, Maximum Likelihood Estimation(MLE), Log Likelihood, Negative Log Likelihood은 비슷한 이름을 가지며 딥러닝 논문들을 읽게되면 빈번하게 등장한다.
Likelihood
Likelihood는 가능도 또는 우도라고 표현하며 특정 사건들이 일어날 가능성을 의미한다.
위와 같은 그림에서 연속확률분포에서 확률은 x1과 x2 사이의 넓이를 의미하고 Likelihood는 x1과 x2의 확률분포 값의 곱을 의미한다. 여기서 Θ는 확률분포의 파라미터로 평균과 표준편차를 의미한다. Likelihood를 수식으로 표현하면 다음과 같다.
연속확률분포말고 이산확률분포에서도 똑같다.
Maximum Likelihood Estimation (MLE)
Maximum Likelihood Estimation(MLE)는 샘플로부터 likelihood를 최대화하는 확률분포를 추정하는 방법이다. 예를 들어 랜덤하게 선택된 중학교 3학년 10명의 키가 아래와 같다고 가정한다.
학생들의 키는 정규분포를 따른다고 가정하고 아래와 같이 3가지 경우로 확률분포를 추정했다면 가운데의 경우가 가장 likelihood가 높으며 중학교 3학년 10명의 샘플에 대한 확률분포를 잘 추정했다고 볼 수 있다.
MLE를 수식으로 표현하면 아래와 같다. 수식의 의미로는 likelihood를 최대화하는 Θ를 찾는 것이다.
위와 같은 예제에서 표준편차를 5로 고정하면 아래 그림과 같이 평균이 168일 때, likelihood가 최댓값을 가진다.
Log Likelihood
Log Likelihood는 likelihood에 log를 취한 값이다. Log Likelihood의 수식은 아래와 같다. 곱셈을 덧셈으로 변경하여 컴퓨터 계산이 좀 더 단조로워졌다.
Log Likelihood를 최대화하는 확률분포를 추정하는 수식은 아래와 같다.
중학교 3학년 10명의 키를 샘플링한 위와 같은 예제에서 Log Likelihood에서도 표준편차를 5로 고정하면 평균이 168일 때, 최댓값을 보인다.
Negative Log Likelihood
Negative Log Likelihood는 Log Likelihood에 음수를 취한 값이며 수식은 아래와 같다.
Log Likelihood를 최대화하는 문제에서 Negative Log Likelihood를 최소화하는 문제로 변경되었다. Negative Log Likelihood를 최소화하는 확률분포를 추정하는 수식은 아래와 같다. Negative Log Likelihood를 loss function으로 사용하면 딥러닝의 gradient descent를 이용하여 최솟값을 찾을 수 있다.
중학교 3학년 10명의 키를 샘플링한 위와 같은 예제에서 Negative Log Likelihood를 최소화하는 확률분포를 추정하고자 한다. 표준편차를 5로 고정하면 평균이 168일 때, 최솟값을 보인다.
Conclusion
Likelihood는
특정 사건이 일어날 가능성을 의미한다.
Maximum Likelihood Estimation(MLE)는
Likelihood를 최대화하는 확률분포를 추정하는 방법이다.
Log Likelihood는
Likelihood에 log를 취한 것이다.
Log Likelihood를 최대화하는 확률분포를 추정하는 수식은 다음과 같다.
Negative Log Likelihood는
Log Likelihood에 음수를 취한 것이다.
Negative Log Likelihood를 최소화하는 확률분포를 추정하는 수식은 다음과 같다.
'Deep Learning Study > Mathematics' 카테고리의 다른 글
[미적분학] L1, L2 Regularization (0) | 2024.04.21 |
---|---|
[미적분학] 테일러 급수 (2) | 2024.04.09 |
[미적분학] Back Propagation (0) | 2024.03.02 |
[미적분학] Optimization(GD, SGD) (0) | 2024.02.29 |
[확률 및 통계학] Loss Function (0) | 2024.02.28 |