확률(Probability)
기본개념
1. 확률실험
* 예측되는 모든 경우의 수를 알고 있고,
* 시행의 결과를 예측 불가능할 때
* 이를 확률실험이라고 한다.
2. 표본공간
* 발생가능한 모든 결과들을 모아놓은 집합
3. 사건
* 표본공간 내에서 발생 가능한 사건들 중 관심 대상이 되는 부분집합
4. 확률
* 표본공간 내에서 특정 사건이 발생할 가능성이 얼마나 내는지를 [0,1] 의 값으로 나타낸 측도.
* 표본공간과 사건이 전제되어야 함.
5. 집합 연산
* 표본공간과 사건은 집합으로 정의된다.
* 따라서 집합의 연산 법칙을 알아야 하는데, 이는 아래와 같다.
확률의 이해
1. 고전적 확률
1) 고전적 확률의 가정
* 고전적 확률의 가정 - 등확률 : 각 사건이 일어날 확률은 동일하다.
* 때문에 사건의 발생 가능성은 다음과 같이 정의한다.
2) 경우의 수(the number of cases)
* 곱의 법칙(multiplication rule) : 어떤 실험이 m개의 연속된 단계로 이뤄져 있고, i-번째 단계에서 발생 가능한 결과의 수가 $n_i$ 개라고 하면, 전체 실험에서 발생 가능한 경우의 수는 다음과 같다.
$n = n_1 \times n_2 \times ... \times n_m$
* 경우의 수 계산 : 경우의 수 계산은 아래에 따라 달라진다.
- with replacement or without replacement
- 순서 고려함, 순서 고려하지 않음.
A) 중복순열(Permutation with repetition)
- 복원 추출이기 때문에 각 k 단계에서 선택할 수 있는 개수가 n이다.
B) 순열(Permutation)
- 각 단계에서 뽑을 수 있는 개수가 1개씩 k까지 줄어든다. 그리고 이를 factorial을 사용해 나타내면 아래와 같다.
C) 중복조합(Combination with repetition)
D) 조합(Combination)
- n부터 n-k+1 개 까지 선택할 수 있지만, 동일한 원소로 구성되었다면 동일한 경우의 수로 세기 때문에((1,2,3), (2,3,1) 동일)) k개를 선택했을 때 k개를 나열할 수 있는 모든 순서쌍의 개수인 k! 만큼 나눠줘야 함. 또한 factorial로 표현하기 위해 (n-k) ! 를 추가적으로 나눠줌.
2. 상대도수의 극한 개념
* 특정 사건 A가 발생할 비율은 실험을 n번 반복할 때 전체 실험에서 A가 발생한 비율로 나타낸다.
* 극한의 개념을 활용하면 모집단에서 사건 A가 발생할 비율, 즉 A가 발생할 확률을 근사치로서 얻을 수 있게 된다.
* 이렇게 극한을 통해 모집단의 특성을 파악한다는 뜻에서 Statistical Probability라고도 한다.
3. 확률의 공리
공리 2. 어느 사건의 확률도 음수가 되거나, 1보다 커질 수 없음.
공리 3. 서로 배반인 사건들의 합사건의 확률은 각각의 확률을 더한 것과 같다.
확률의 기본정리
1. 확률의 기본 성질
* 확률의 공리로부터 유도할 수 있는 확률의 기본 성질은 아래와 같다.
성질 1
* 공리 3으로부터 유도 가능함.
성질 2
* 공리 3으로부터 유도할 수 있다.
성질 3
* 이를 확대하면 아래와 같다.
성질 4
* 확률의 기본성질 4번째를 일반화 한 것을 Boole's inequality라고 한다.
* 또한 4번 성질은 여집합 관계에서도 성립하는데, 이를 일반화 한 것을 Bonferroni's inequality라고 한다.
조건부확률
* 확률실험에서 새로운 정보나 조건 A가 추가되었을 때 사건 B의 확률
* 표본공간이 변화함 : 표본공간 $\Omega$ 에서 A로 축소
1. 조건부확률의 응용
* A와 B의 확률이 모두 0보다 클 때, 위와 같은 성질이 성립한다.
* 이는 조건부확률 식으로부터 유도 가능하다.
* 이 식으로부터 곱사건은 순차적인 사건들의 조건부확률 곱으로 나타낼 수 있다는 것을 알 수 있다.
2. 조건부 확률의 응용
1) 표본공간의 분할
* 위와 같은 가정 하에 다음 등식이 성립한다.
2) 사후 확률(Posterior Probability)
* 조건부 확률은 특정 사건 A가 발생한 이후의 B의 확률에 관심을 가진다.
* 이 때 $P(A)$ 와 $P(A^c)$를 사전확률이라고 한다.
* 반대로 관측된 결과 B로부터 사건 A가 원인일 사후확률을 추정하는 것을 후향적 연구(retrospective study) 라고 한다.
3) 베이즈 정리(Bayes' Theorem)
* 사건 B가 주어졌을 때 사건 A의 확률은 사건 A가 주어졌을 때 사건 B의 확률(사후확률)을 통해 계산 가능하다.
* 분모 P(B)가 왜 이렇게 변환될 수 있는지는 조금 전 1) 표본공간의 분할에서 설명한 바 있다.
* 위 베이즈 정리 식은 표본공간 내의 사건이 A, B만 존재할 경우의 식이고, 일반식은 아래와 같다.
독립사건
1) 독립사건 정의
* 사건 A와 사건 B가 서로 영향을 주지 않을 때 사건 A와 B를 독립사건이라고 한다.
* 이 때 특정 사건의 조건부확률은 나머지 사건과 무관하기 때문에 아래와 같이 쓸 수 있다.
* 또한 사건들의 교집합은 다음과 같이 쓸 수 있다.
* 그리고 이 명제의 역도 성립한다(곱했을 때의 확률이 교사건의 확률과 동일하면 사건들은 독립이다).
2) 표본집합과 공집합
* 표본공간과 공집합은 독립이기 때문에 확률 계산시 위와 같다.