이것저것 공부 기록하기

[탐색적 데이터 분석] 위치 추정과 변이 추정 본문

DeepLearning/Statistics

[탐색적 데이터 분석] 위치 추정과 변이 추정

얍욥얍 2021. 1. 20. 18:42

 

 

해당 포스트는 오렐리 책 '데이터 과학을 위한 통계'을 기반으로 작성되었으며, 코드를 제외하고 책에 등장하는 데이터 과학에 실질적으로 적용되는 큰 범주의 통계 이론을 집중으로 포스팅합니다.

 

데이터 과학을 위한 통계

소스 파일 다운로드는 https://github.com/andrewgbruce/statistics-for-data-scientists 에서 가능하며 또는 터미널에서 아래 명령어를 실행하여 참고하시면 됩니다.

git clone https://github.com/andrewgbruce/statistics-for-data-scientists

데이터의 종류

1. 연속형 데이터(Continuous Data) : 일정한 범위 내에서 모든 값을 취하는 데이터

2. 이산 데이터(Discrete Data) : 정수 값을 취하는 데이터

3. 범주형 데이터(Categorical Data) : 어떤 카테고리가 정해진 값을 취하는 데이터

4. 이진 데이터(Binary Data) : 0이나 1, 또는 참/거짓과 같은 값을 갖는 데이터

5. 순서형 데이터(Ordinal Data) : 순서가 있는 값을 취하는 데이터


데이터의 특징을 요약하는 요소

데이터를 표현하는 변수들은 보통 수천 가지 다른 값을 갖는다.

따라서 데이터가 주어졌을 때, 데이터를 살펴보는 가장 기초적인 단계는 데이터의 특징을 요약해야 한다. 이는 곧 대부분의 값이 어디쯤에 위치하는지를 나타내는 추정값이다. 여러 요소들 중 위치 추정 변이 추정에 대해 살펴보자.

  1. 위치 추정

    • 평균(mean 또는 average) : 일반적으로 데이터의 모든 값의 총합을 개수로 나눈 산술평균(arithmetic mean)을 의미
      • 표본 데이터의 평균은 $\bar{x}$ 로 표기하고, 모집단에 대한 평균은 $\mu$ 로 표기 $$\bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$$
    • 가중 평균(weighted mean 또는 weighted average) : 데이터 ${x_{i}}$에 가중치 ${w_{i}}$를 곱한 값의 총합을 가중치의 총합으로 나눈 값 $$\bar{x}_{w}= \frac{1}{\sum_{i}^{n}{w}_{i}}\sum_{i=1}^{n}w_{i}x_{i}$$
      • 어떤 값들이 본래 다른 값들에 비해 큰 변화량을 가질 때, 이러한 관측값에 대해 더 작은 가중치를 줄 수 있다.
        • 여러 개의 센서로부터 평균을 구한다고 할 때, 한 센서의 정확도가 떨어진다면 그 센서에서 나온 데이터에는 낮은 가중치를 주는 것이 합리적이다.
      • 데이터를 수집할 때, 우리가 관심있는 서로 다른 대조군에 대해서 항상 똑같은 수가 얻어지지 않는다.
        • 온라인 실험을 진행할 때 모든 사용자 그룹에 대해 정확히 같은 비율을 반영하는 데이터를 수집하는 것이 어렵다.
        • 이를 보정하기 위해서, 데이터가 부족한 소수 그룹에 대해 더 높은 가중치를 적용할 필요가 있다.
    • 절사평균(trimmed mean 또는 truncated mean) : 정해진 개수의 극단값(extreme value)를 제외한 나머지 값들의 평균
      • 값들을 크기 순으로 정렬한 후, 양 끝에서 일정 개수의 값들을 삭제한 후 남은 값들을 갖고 구한 평균
      • 특이값(outlier: 대부분의 값과 매우 다른 데이터 값)의 영향을 줄이기 위해 사용
      • 오름차순으로 정렬한 값들이 ${x_{(1)}}$, ${x_{(2)}}$, ... , ${x_{(n)}}$ 이라고 할 때, ${p}$개의 가장 크고, 작은 값들을 제외한 후의 절사평균은 다음과 같다. $$\bar{x}= \frac{1}{n-p}\sum_{i=1}^{n-p}x_{(i)}$$
    • 중간값(=중앙값, median) : 데이터를 일렬로 정렬했을 때, 가장 가운데 위치한 값
      • 데이터가 짝수인 경우: 가운데 있는 두 값의 평균
      • 결과를 왜곡할 수 있는 특이값 또는 이상값의 영향을 받지 않으므로 강건한 위치 추정 방법으로 알려져 있다.
      • 평균과 중간값의 차이
        • 평균 : 모든 관측값을 사용하기 때문에 데이터에 민감
        • 중간값 : 정렬된 데이터의 가운데에 위치한 값으로 결정하므로 중간값이 많으면 위치 추정에 더 유리
    • 가중 중간값(=가중 중앙값, weighted median): 데이터를 일렬로 정렬한 후 가중치를 적용했을 때 상위 절반의 가중치의 합이 하위 절반의 가중치의 합과 동일한 위치의 값
      • 중간값과 마찬가지로 가중 중간값 또한 특이값에 강건(robust: 극단값들에 민감하지 않다는 것을 의미)
  2. 변이 추정

    변이(variability)는 데이터가 얼마나 밀집 또는 퍼져있는지 나타내는 산포도(dispersion)이다. 평균은 데이터의 분포 중에서 대표적인 값으로, 데이터의 산포도는 알려주지 못한다. 가장 대표적으로 사용되는 변이 추정은 관측 데이터와 위치 추정값 간의 차이를 기본으로 한다.변이를 측정하는 한 가지 방법은 바로 이런 편차들의 대표값을 추정하는 것이다.
    • 편차(deviation) 또는 오차(error), 잔차(residual) : 관측값과 위치 추정값($\bar{x}$) 간의 차이
      • 편차는 양 또는 음의 값이 될 수 있으므로 양의 값으로 만들기 위해 주로 절대값을 사용
        • 편차의 합은 양과 음의 값으로 되어 모든 합이 0이 됨
      • 편차를 제곱한 값을 사용하게 되면 오차가 커질수록 편차가 더 커지는 효과가 있음 $$\left | x-\bar{x} \right |$$
    • 분산(deviation) 또는 평균제곱오차(MSE, mean squared error) : 평균과의 편차를 제곱한 값의 평균
      • 표본 데이터의 분산은 $S^{2}$으로 표기하고, 모집단에 대한 분산은 $\sigma^{2}$으로 표기함 $$variance = S^{2} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$
    • 표준편차(SD, standard deviation) 또는 L2 norm, Euclidean norm : 분산의 제곱근
      • 분산의 제곱근(편차를 제곱했기 때문에 단위를 맞추기 위해 제곱근을 취한 값)
      • 표본 데이터의 표준편차는 ${s}$로 표기하고, 모집단에 대한 표준편차는 $\sigma$로 표기함 $$SD = {s} = \frac{1}{n}\sum_{i=1}^{n}(x_{i}-\bar{x})^{2}$$
    • 평균절대편차(MAD, mean absolute deviation) 또는 L1 norm, Manhattan norm : 평균($\bar{x}$)과의 편차 절대값에 대한 평균 $$L1 norm = \frac{1}{n}\sum_{i=1}^{n}\left | {x}_{i} - \bar{x} \right|$$
    • 중위절대편차(MAD, median absolute deviation) : 중앙값(${m}$)과의 편차에 대한 중앙값
      • 분산과 표준편차, 평균절대편차는 모두 특이점에 강건하지 않다.
      • 중위절대편차는 특이점에 강건한 중앙값을 사용하므로 강건한 변위 추정값으로 사용된다. $$MAD = {median}(\left |{m-x_1} \right |, \left |{m-x_2} \right |,...,\left| {m-x_n} \right|)$$ 

 

References

forensics.tistory.com/

velog.io/@crinex

반응형
Comments