[20091005]-통계적 결정이론과 확률밀도함수의 추정
5.1 우도비 검증
데이터의 분포가 평균과 분산이라는 파라미터로 구성된 단일 가우시안 확률밀도함수 언덕으로 모델링 될 수 있다는 것을 알고 있다. 또한 여러 개의 가우시안 언덕의 결합으로도 모델링 될 수 있다.
LRT(Likelihood Ratio Test) 에 관하여 이해를 하고 나서 수식적인 설명을 하도록 하여야 한다. 가우시안 언덕에 대한 함수를 각각 Gm과 Gf 라고 할 경우에 미지의 데이터 점 x가 주어지면 그 점에 대한 확률을 의미하는 두 언덕의 높이 Gm(x)와 Gf(x)를 계산할 수 있으며, 그점에서 Gm(x)의 점이 높으면 Gm에 유사하다고 볼 수 있다. 즉 우도비란 두 수의 비율을 살펴봄으로써 어느쪽에 더 유사한지를 알아볼 수 있다.
이 것은 특징 벡터 x가 주어질 경우, 특징 벡터가 속한 클래스를 결정하는 문제이다. 즉 각 클래스의 사후 확률 P(Wi|x)가 가장 큰 값을 가진 클래스를 결정하는 것이므로 결정규칙은 다음과 같다.
Gm(x)/Gf(x)
만약 P(W1|x)>P(W2|x) 라면 W1을 선택하고, 그렇지 않으면 W2를 선택한다.
위의 규칙은 다음과 같이 표현 가능하다.
이때 ∧(x) 항을 우도비 라고 하며 이러한 결정규칙을 우도비 검증이라고 한다.
∧(x) = P(W1|x)/P(W2|x)>P(W2)/P(W1) 이면 W1을 선택하고, 아니면 W2를 선택한다.
5.2 오류 확률(잘못판정하는 경우)
분류기를 특징 공간을 결정 영역으로 분할하는 장치라고 생각하면, 베이즈 분류기에서 몇가지 부가적인 통찰을 할 수 있다. 클래스가 두개 주어질 때, 베이즈 분류기를 이용하여 두 영역(R1,R2)로 분할하면, 다음과 같이 잘못 분류되는 경우가 있을 것이다. 하나는 W1에 속하는 특징벡터 x를 R2로 결정할 경우이고 , 다른 경우는 W2에 속하는 특징벡터 x를 R1으로 결정하는 것이다. 이 사건은 상호 베타적이므로 총 오류 발생 확률은 다음과 같이 표현 가능하다.
P(error) = P(x∈R2,W1)+P(x∈R1,W2)
= ∑P(error|wi)P(wi)
총 오류확률에서 주어진 각 클래스에서 발생할 오류 확률 P(error|Wi)는 다음과 같이 표현할 수 있다.
P(error|Wi) = P(choose Wj|Wi) = ∫P(x|Wi)dx
최적의 결정 경계는 오류 확률이 최소가 되는 결정 경계를 구하는 것이므로 적분값이 최소가 되기 위해서는 P(error|x)가 최소가 되어야 할 것이다.우도비 검증으로 구한 결정경계와 오류 확률로 찾은 최적 결정 경계는 일치한다.
5.3 베이즈 위험 (잘못판정시 들어가는 비요까지 포함한 우도비 검증
앞서 배웠던 내용은 W1클래스를 W2클래스로 판정했을때 받는 벌점은 고려하지 않은 경우이다. 즉 각각의 잘못 판정시 받는 벌점은 같았다고 할 수 있다. 여기서는 잘 못 분류 했을경우 받는 벌점의 개념인 비용 (Cij)항을 베이즈 결정 규칙에 적용하여 수식으로 표현해 보자. Cij는 Wj가 실제로 속할 클래스 일때, 클래서 Wi를 선택하는데 따른 비용을 나타낸다. 비용의 기대 값을 베이즈 위험이라고 정의 한다. 베이즈 위험이 커지면 그만큼 비용도 커지게 된다. 기대값은 각 확률 변수와 그 확률변수가 발생할 곱의 합으로 정의 되므로 다음과 같이 표현한다.
R=E[C]
=∑∑Cij*p(choose Wi,x∈Wj)
= ∑∑Cij*p(x∈Ri|Wi)*p*Wj) <- 실제 Wj인데 Wi를 선택할 기대값
그렇다면 베이즈 위험을 최소화 하는 결정 규칙은 어떻게 표현할 수 있을 까?
베이즈 위험의 최소화를 통해 결정 경계를 결정하는 것은 다음과 같다.
5.4 LRT 결정 규칙의 변형
P(x|W1)/p(x|W2) > (C12-C22)P[W2]/(C21-C11)P[W1] 이면 W1을 선택, 아니변 W2를 선택한다.
여기서 왼쪽항은 우도가 되고 오른쪽항의 C는 비용상수 P항은 사전 확률이 된다.
앞의 베이즈 위험 개념을 비용항으로 포함하면 몇가지 변형된 결정 함수를 새롭게 정의 할 수 있다.
- 베이즈 규준 : 위의 베이즈 위험 최소화 결정 경계와 일치
- MAP(Maximum A Posterior) 규준 : 사후 확률을 최대화한다는 의미
P(x|W1)/p(x|W2) > 이면 W1선택, 아니면 W2선택 (Cij = 0(i=j), 1(i≠j))
- ML 규준 : 사전 확률 이 같고 제로 -원 비용함수인 경우, 베이즈 규준은 우도의 비로 표현한다. 이는 우도를 최소화 한다는 의미에서 ML(Minimum Likelihood)규준이라고 한다.
P(x|W1)/p(x|W2) > 이면 W1선택, 아니면 W2선택 (Cij = 0(i=j), 1(i≠j) , P(Wi) = 1/C∀i)
5.5 다중 클래스에 대한 결정 규칙
아 점점 더 어려워진다. 게다가 이해까지 안가기 시작했다.
개념만 알아보고 넘어가도록 한다. 특징 공간상의 각 점 x에서 베이즈 위험이 최소화 되어야 한다.
5.6 판별함수
만약∀j≠i, gi(x)>gj(x) 이면, 특징 벡터 x를 클래스 wi에 속한다고 결정한다.만약
| 규준 | 판별함수 |
5.7 최우추정법에 의한 확률밀도함수의 추정
추정이란 표본 집합의 데이터에서 정확하지는 않아도 대강 그럴듯하게 어떤 갓ㅂ을 알아내는 것을 의미한다.
최우 추정 단계는 다음과 같다.
1. 표본 집합에 로그 우도를 구한다.
2. 로그 우도의 값을 모든 파라미터로 편미분하여 0으로 설정하고 최우 방정식의 형태로 만든다
3. 연립 방정식을 풀어 해를 구한다.
4. 해 중에서 최대값을 추정 파라미터로 결정한다.
최우추정 결과는 각각 평균과 분산이 된다. 추정이 얼마나 잘 된 것인지를 알기우해 추정결과에 대한 기대값을 구하여 실제 값과 비교해 보는 것이다.
- 표본 평균의 기대값
- 표본 분산의 기대값
코끼리 제주댁 생명의 달콤한 언어 ◀FUBU SHOP▶ 강남성모 QS몰 나는 항상 꿈꾼다. 마음의 만화경 곰돌이 나만의 인테리어
