수치를 이용한 자료정리
표본평균
* 표본평균은 표본의 무게중심과 같다.
* 위와 같을 때
* 즉, 표본평균을 기준으로 했을 때 편차의 합은 0이 된다.
* 하지만 평균은 outlier에 robust하지 않다.
* 이럴 때는 중앙값을 사용한다.
표본중앙값
* 표본들을 오름차순으로 정렬해서 order statistics를 생성했다고 가정했을 때 중앙에 있는 값이다.
* 특성상 평균과같이 자료의 정보를 다 활용하게 되는 건 아니다.
표본분산
* 자료가 퍼져있는 정도를 측정할 때 사용.
* 특정 표본 a를 기준으로 자료들이 얼만큼 퍼져있는지를 측정하고 싶을 때 편차제곱합을 사용한다고 해보자.
* 이 때 특정 표본 a는 중심위치가 되는(편차제곱합이 가장 작은) 평균이 적절하다.
* 1/(n-1)로 나눠주는 이유는 자유도가 n-1이기 때문이다. 자유도가 n-1인 이유는 마지막 1개는 편차제곱합이 0이 되기위해서(제약조건) 나머지값들에 의해 정해지기 때문에 n개의 값들이 있을 때 마지막 1개를 제외한 n-1개가 자유롭게 정해질 수 있는 값이 되기 때문이다.
표본 공분산(Covariance)
* 각 변수들의 편차를 곱한 것을 covariance라고 한다.
* 변수들간의 직선관계(상관관계)를 파악할 때 사용한다.
* 만약 2차함수 모양이거나, 직선관계 없이 무작위로 자료가 분포한다면 공분산이 0에 가까워진다.
* 하지만 2개 이상의 변수간의 관계를 파악하다보면 변수간의 측정단위가 달라 문제가 발생할 수 있다.
* 이는 pearson의 coefficient of correlation으로 구할 수 있다.
Pearson의 coefficient of correlation(상관계수)
* covariance를 표준화 하여 이끌어낸 식이 coefficient of correlation이다.
* 상관계수는 공분산과 동일하게 해석하면 된다(직선관계 없으면 0에 가깝고 ... 등등).
공분산과 상관계수 주의점
* 공분산과 상관계수는 변수간의 직선관계를 파악하는 것이다.
* 다른 관계성에 대해서는 판단할 수 없고 오직 직선관계만 파악 가능하다.
* 또한 변수간의 인과관계를 나타내는 것은 아니다.
표본표준편차
* 표본분산을 계산할 때 편차제곱합을 했기 때문에 원래의 척도로 scale을 보정해주기 위해 root를 씌워준 것이 표본표준편차이다.
표준화(standardization)
* 측정단위에 영향을 받지 않는 자료로 가공(중심위치, 척도 조정)하기 위해 사용
* 표준화를 거친 자료는 값들의 평균이 0이 되고, 분산은 1이 된다.
왜도(skewness)
* 위 식은 수정된 왜도이다.
* 보통 통계적 추론을 시행할 때 자료는 평균을 중심으로 대칭이라는 가정을 도입한다.
* 이 가정에서 크게 벗어나지 않아야지 올바른 통계적 추론이 될 것이다.
* 이 때 왜도를 확인할 수 있다.
* 왜도는 편차에 3제곱을 하기 때문에 값 > 0일 경우엔 평균보다 큰 자료들이 많은 경우이고 값 < 0의 경우엔 반대로 볼 수 있다.
첨도(kurtosis)
* 위 식은 수정된 첨도이다.
* 첨도를 계산할 때 편차에 4제곱을 해주기 때문에 평균과의 거리가 가까운 값들보다 평균과 거리가 먼 값들은 매우 큰 값이 된다.
* 정규분포는 이론적으로 첨도가 3이다. 때문에 첨도가 3에 가까울수록 자료가 정규분포에 가깝기 때문에 바람직하다고 생각할 수 있다.
* 첨도가 높다면 꼬리부분이 길다는 뜻이 된다.
Jacque-Bera 검정
* b1이 skewness 이고
* b2가 kurtosis 일 때,
* JB가 0에 가까울 수록 정규분포에 근접하다.
'수학 > 통계학' 카테고리의 다른 글
확률(Probability) (0) | 2022.09.17 |
---|