[정리] PRML 새로 알게 된 것

1 분 소요

Pattern Recognition and Machine Learning이 정리 된 사이트을 보면서 새로 알게 된 것들을 정리해 보았습니다. 지극히 개인적인 기준으로 적은 것이니 아마 저만 보게 될 것 같습니다.

클래스 판별 문제 종류

  • Generative Models
    • 주어진 데이터를 통해 모델링 된 분포로부터 완전히 새로운 샘플들을 다시 생성 가능
  • Discriminative Models
    • 사후 확률을 직접 모델링
  • Discriminant Function
    • 사후 확률을 따지지 않음

정보 이론

엔트로피

놀람의 정도(degree of surprise) 엔트로피: 평균 정보량, $p(x)$인 분포에서 $p(x)$ 함수의 기대값을 의미미

최대 엔트로피

$p(x)$가 특정 지점에서 높게 피크를 치면 낮은 엔트로피를 얻게 된다.

Non-uniform 분포가 Uniform 분포보다 엔트로피가 낮다

엔트로피를 최대로 하는 확률은 정규분포를 따른다.

조건부 엔트로피

  • $(\bold{x},\bold{y})$ 를 기술하기 위해 필요한 정보는 $\bold{x}$ 만 기술하기 위한 정보와
  • $\bold{x}$ 가 주어졌을 때 $\bold{y}$ 를 기술하기 위한 정보의 합으로 이루어진다.
  • 곱이 아니라 합이라는 사실이 중요한데, 사실 내부적으로 로그가 포함되어 있기 때문.

KL Divergence(relative entropy)

성질

  • $KL(p   q) \neq KL(q   p) $

상호정보(Mutual Information)

  • 항상 \( I[{\bf x}, {\bf y}] \ge 0 \)을 만족한다.
  • 만약 \( {\bf x} \) 와 \( {\bf y} \)가 서로 독립적이라면 \( I[{\bf x}, {\bf y}] = 0 \) 이 된다.
  • 합(sum) 과 곱(product)의 법칙도 사용할 수 있다.
  • mutual information 은 조건부 엔트로피(conditional entropy)와 연관이 있다.
  • $\bold{y}$ 를 알고 난 후에 $\bold{x}$의 불확실성을 줄이는 과정으로 볼 수 있다.
  • 베이지안 관점으로 접근하자면 $ p({\bf x}) $ 는 사전(prior) 분포, $ p({\bf x} {\bf y}) $ 는 관찰 값 $ {\bf y} $ 를 측정한 이후의 사후(posterior) 분포로 볼 수 있다.

댓글남기기