정보량
: 정보를 표현하는데 필요한 bit 수
식 I (x) = -logP(x)
정보량 단위 : 주로, bit(비트)로 표현
- log 의 밑이 2 이면, 단위는 bit (비트, 실제적으로 많이 쓰이는 단위)
- log 의 밑이 e 이면, 단위는 nat (natural unit)
- log 의 밑이 10 이면, 단위는 hartley
더보기
로그의 밑이 2인 경우: 정보량은 비트(bit) 단위로 표현됩니다. 이 경우, 정보의 양은 이진(binary) 형태로 나타고, 정보의 "이진 단위"를 나타내게 됩니다. 주로 컴퓨터와 통신 분야에서 다룰 때 사용됩니다.
더보기
로그의 밑이 자연 로그 (ln)인 경우: 정보량은 나티(nat) 단위로 표현됩니다. 나티는 자연로그의 밑인 'e'를 사용하는 단위로, 정보량을 자연 로그로 계산하면 나타 단위를 사용하게 됩니다. 이것은 정보 이론의 수학적인 특성과 관련이 있으며, 엔트로피(entropy) 등의 개념을 다룰 때 주로 사용됩니다.
더보기
로그의 밑이 10인 경우: 정보량은 데시벨(decibel, dB) 단위로 표현됩니다. 데시벨은 주로 신호 처리와 통신 분야에서 사용되며, 음향, 전기 신호, 무선 통신 등에서 신호 강도나 손실을 나타내는 데 사용됩니다.
정보이득
: 데이터에서 얻는 정보의 양 또는 불확실성의 감소를 측정하는 개념
- 어떤 특성을 사용하여 데이터를 분할하면 분류의 정확도가 얼마나 향상되는지를 측정.
- Information Gain(S, A) = Entropy(S) - Σ(|S_v|/|S|) * Entropy(S_v)
- 엔트로피를 사용하여 정보의 불확실성을 표현
엔트로피
: 특정 확률분포를 따르는 사건들의 정보량의 기댓값
- 무질서도, 불확실성
- 블확실할 때 엔트로피 값이 가장 크다
- 식
- H(X) = -Σ [P(x) * log2(P(x))]
- H(X) : 확률 변수 X의 엔트로피
- P(x) : 확률 변수 X가 값 x를 가질 확률
- 예) 동전이 앞면이 나올지 뒷면이 나올지 모를는 상황
- 예) 빨간 구슬 파란 구슬이 반반들어있는 주머니에서 무슨 색공이 나올지 예측하는 상황
- 이산 확률변수의 엔트로피
➞ 추천 설명 영상
미분 엔트로피
: 연속확률 변수의 엔트로피로 확률 밀도 함수의 무질서도를 나타냄
- 무질서도를 측정하기 위해 연속 확률 변수의 확률 밀도 함수를 로그 변환하고 적분하는 것을 의미.
- (X) = −∫p(x)log p(x)dx
# 적분인데 왜 미분이라고 표현할까 ?
- 미분 형태로 표현된 확률 밀도 함수의 엔트로피를 강조하기 위해 사용된 것
- 확률밀도 함수 : 누적분포 함수의 미분값
- 확률 밀도 함수를 미분 및 적분하는 과정을 강조
생성 모델(generative model)은 여러 확률 분포와 베이즈 이론을 이용해서 데이터의 실제 분포를 간접적으로 모델링 한다. 데이터가 따르는 실제 확률 분포를 P(x), 모델이 나타내는 확률 분포를 Q(x) 라고 할 때 두 확률 분포의 차이를 나타내는 지표가 필요하다. 이때 사용되는 것이 KL divergence이다. 두 확률 분포의 KL divergence는 를 기준으로 계산된의 평균 정보량과, 를 기준으로 계산된 의 평균 정보량의 차이로 정의할 수 있다. 실제 확률 분포 대신 근사적인 분포 를 사용했을 때 발생하는 엔트로피의 변화량을 나타낸다.
쿨백-라이블러 발산(Kullback-Leibler divergence, KL divergence)
- KL발산
- D(P || Q) = Σ \[P(x) \* log(P(x) / Q(x))\] (이산 확률 변수의 경우)
- D(P || Q) = ∫ \[p(x) \* log(p(x) / q(x))\] dx (연속 확률 변수의 경우)
KL 발산은 생성 모델을 학습시킬 때는 데이터가 따르는 실제 확률 분포를 P(x), 모델이 나타내는 확률 분포를 Q(x) 라고할때 두 확률 분포의 차이를 나타내는 지표이다.
- 이 식에서 p(x)의 값은 고정되어 있기 때문에 KL분산을 최소화하는 문제는 Q(x)의 값을 줄여야한다.
- 빨간색 : cross entropy, 파란색 : entropy
- 따라서 우리는 교차 엔트로피를 최소화해야한다.
➞ 추천 설명 영상
Cross entropy loss (손실함수)
- Cross entropy
- 두 확률 분포 또는 확률 모델 간의 차이를 측정하기 위해 사용되는 개념
- 실제 확률 분포와 예측된 확률 분포 사이의 불일치를 측정하는 데 주로 사용됩니다.
- 실제 label과 모델의 예측 확률 분포 사이의 차이를 측정하여 모델의 성능을 평가하는데 사용.
- 식
- 이산 확률 변수의 경우:
- H(P, Q) = -Σ [P(x) * log(Q(x))]
- 연속 확률 변수의 경우:
- H(P, Q) = -∫ [p(x) * log(q(x))] dx
- H(P, Q): 크로스 엔트로피입니다.
- P(x) 또는 p(x): 실제 확률 분포를 나타내는 확률 밀도 함수 또는 확률 질량 함수입니다.
- Q(x) 또는 q(x): 모델 또는 예측된 확률 분포를 나타내는 확률 밀도 함수 또는 확률 질량 함수입니다.
- 이산 확률 변수의 경우:
- Cross entropy 손실 함수
- 분류 문제에서 주로 사용
- P(x)와 Q(x)의 차이를 cross entropy로 계산하면 계산이 간단해지는 장점이 있음.
- 분류 문제에서는 데이터의 확률 분포가 위와 같이 one-hot vector로 표현되기 때문
- ex) [0,1,0,0]
- 식
- H(P, Q) = -Σ [P(x) * log(Q(x))]
➞ 추천 설명 영상
- Cross entropy와 likelihoodd의 관계
- 크로스 엔트로피와 우도는 모델 파라미터의 최적화와 관련이 있다.
- 모델을 데이터에 더 잘 적합시키기 위해 사용한다.
- 크로스 엔트로피는 모델의 예측과 실제 데이터 간의 불일치를 측정한다.
- 우도는 모델이 얼마나 잘 데이터를 설명하고 있는지를 나타낸다.
'TIL(Today I Learned)' 카테고리의 다른 글
K-means (0) | 2023.09.16 |
---|---|
클러스터링 (0) | 2023.09.15 |
MLE / MAP (0) | 2023.09.13 |
likelihood와 머신러닝 (0) | 2023.09.12 |
scikit-learn을 이용해 분류문제 해결하기 (0) | 2023.09.05 |