표준편차 계산기, 모집단 및 표본의 표준편차 계산기

표준편차를 계산할 자료 값을 아래 표준편차 계산기 입력 칸에 ‘3, 6, 9, 12’와 같이 콤마로 분리하여 따옴표 없이 입력하세요. ‘3 6 9 12’ 처럼 띄어쓰기로 분리하여 입력해도 됩니다.

목차:

표준편차 계산기 설명
- 분산과 표준편차 계산 공식
- 분산 대신 표준편차를 쓰는 이유
분산 계산할 때 분모는 n, n-1, 둘 중의 어느 것을 써야 하나?
표본의 분산을 계산할 때 분모가 n-1 이어야 하는 이유
- 표본의 표준편차가 모집단 표준편차 보다 작을 수 밖에 없는 이유
- 자유도(degree of freedom)를 고려해야 하므로 n-1

표준편차 계산기 설명

입력한 데이터의 표준편차를 계산해 주는 계산기입니다. 계산에 필요한 데이터를 입력하면 평균(mean), 분산(variance), 표준편차(standard deviation)를 계산하여 표시해 줍니다.

표준편차 계산기는 두 가지 버전의 분산과 표준편차를 표시하는데요, 먼저 분산(정확한 이름은 모분산)과 표준편차(정확한 이름은 모표준편차)를 표시한 후 그 아래에 표본 분산과 표본 표준편차를 따로 표시합니다. 표본 분산과 표본 표준편차에 대한 설명은 잠시 후에 설명하겠습니다.

평균은 데이터가 어디를 중심으로 모여 있는가를 알려주고, 표준편차는 데이터의 흩어져 있는 정도를 표시해 주는 통계량으로 분산에 루트를 씌운 값입니다.

분산과 표준편차 계산 공식

분산을 계산할 데이터 값들을 x₁, x₂, x₃, … , x_n라 하고 데이터 개수를 n개, 이들 데이터의 평균을 m 이라하면, 분산 계산 공식과 표준편차 계산 공식은 다음과 같습니다.

$$ \text{분산} = \frac{(x_1-m)^2 + (x_2-m)^2 + (x_3-m)^2 + \ldots + (x_n-m)^2}{n} $$

$$ \text{표준편차} = \sqrt{\frac{(x_1-m)^2 + (x_2-m)^2 + (x_3-m)^2 + \ldots + (x_n-m)^2}{n}} $$

분산 대신 표준편차를 쓰는 이유

분산은 개별 데이터 값과 평균의 차이를 제곱한 값들을 모두 더한 후 이를 데이터 개수로 나누어 계산합니다. 이처럼 분산 계산 과정에서 개별 데이터 값이 제곱 되기 때문에 원래 데이터의 척도가 과대하게 계산되는 문제가 생깁니다.

예를 들어, 원래 데이터가 ㎝로 기록된 것이라면 분산은 ㎠ 이 되어 버립니다. 이처럼 척도가 과대하게 계산되는 문제는 분산에 루트를 씌워 주면 해결됩니다. 그리고 분산에 루트를 씌운 것이 바로 표준편차입니다.

따라서 데이터 특징을 파악하기 위한 통계량으로 분산 대신 표준편차를 쓰는 이유는 표준편차를 계산하기 위해서는 분산이 필요하지만, 분산 자체는 원래 데이터의 척도를 제곱함으로써 데이터의 특징을 제대로 설명해 주지 못하기 때문입니다.

분산 계산할 때 분모는 n, n-1, 둘 중의 어느 것을 써야 하나?

저희 표준편차 계산기를 통해 볼 수 있는 결과는 입력한 자료가 모집단에 대한 자료라고 가정하여 계산한 분산과 표준편차입니다. 이 경우 계산 과정에 쓰이는 분모는 입력한 자료의 개수(n)입니다.

고등학교 교과 과정까지의 계산 문제는 거의 대부분 모집단의 분산과 표준편차를 계산하는 것입니다. 또 특별한 설명 없이 1, 3, 5, 7, 9 의 분산을 계산하라고 하면 이를 (모집단의 분산이라고 보아) 분모는 자료의 개수가 5개이므로 5 이어야 합니다.

그런데, 주어진 자료가 모집단에서 일부를 뽑은 표본이라면 분모는 5가 아니라 5-1인 4이어야 합니다. (왜 5-1인지는 잠시 후 설명.)

모집단의 분산을 계산할 때는 분모로 n을 이용해야 하고, 표본의 분산을 계산할 때의 분모는 n-1을 이용해야 한다고 기억하면 됩니다.

표본의 분산을 계산할 때 분모가 n-1 이어야 하는 이유

앞에서 모분산을 계산할 때는 분모가 자료의 개수를 의미하는 n이지만, 표본의 분산을 계산할 때는 분모가 자료의 개수 n에서 1을 뺀 ‘n-1’이어야 한다고 얘기했지만, 그 이유에 대해서는 알아보지 않았습니다.

이제 표본의 분산을 계산할 때 분모가 n-1이어야 하는 이유를 알아볼 차례입니다.

그 이유는 두 가지 차원에서 찾을 수 있는데요, 첫 번째 차원의 이유는 표본 분산은 항상 모분산 보다 작을 수 밖에 없으므로 수정해야 하기 때문이고, 두 번째 차원의 이유는 표본 분산을 계산하기 위해 필요한 자료의 개수는 n개가 아니라 ‘n-1’개 이기 때문입니다.

두 번째 차원의 이유는 이른바 자유도(degree of freedom) 개념인데요, 일단 첫 번째 차원의 이유부터 설명한 후에 살펴보도록 하겠습니다.

표본의 표준편차가 모집단 표준편차 보다 작을 수 밖에 없는 이유

표준편차 계산 공식을 수학적으로 변형하면, 표준편차는 ‘개별 자료 값들의 제곱의 평균’에서 ‘평균의 제곱을 뺀 값에 루트를 씌운 값과 같아집니다.

그런데, 표준편차는 분산에 루트를 씌운 값이므로 보통 분산을 먼저 계산하게 되죠. 그래서 분산을 위주로 설명하도록 하겠습니다.

$$ \text{분산} = E(x_i^2) – m^2 $$

표본의 평균은 표본 집합의 개수를 늘릴수록 모집단의 평균에 가까와 진다고 알려져 있습니다. 그러나 표본의 분산은 다릅니다.

표본의 분산은 모집단의 분산 보다 항상 작습니다. 왜 그런지는 위 식을 분석해 보면 됩니다.

위 식에서 평균(m)은 모집단의 평균과 거의 일치합니다. 문제는 E(x_i ² )입니다. 표본은 모집단의 일부이므로 계산할 자료의 개수는 모집단에 있는 자료의 개수보다 작을 수 밖에 없습니다.

모집단에 관한 자료가 {1, 2, 3, 4, 5} 이고 표본이 {1, 3, 4}라고 생각해 보세요. 모집단 자료 값들을 제곱하여 더한 후 평균을 내면 (⁵⁵ ⁄ ₅) 11이지만, 표본 자료 값들을 더한 후 평균을 내면(²⁶ ⁄ ₃) 약 8.67로, 표본의 자료 값을 제곱한 후 평균을 낸 것이 모집단의 그것 보다 작습니다.

이는 기본적으로 모집단 자료의 개수보다 표본 자료의 개수가 적기 때문에 생기는 일입니다. 결국 표본의 분산은 모집단의 분산 보다 작을 수 밖에 없게 됩니다. 표본의 분산이 모분산 보다 작으니 표본의 표준편차도 모집단의 표준편차 보다 작게되죠.

모집단 전체에 대한 자료를 얻을 수 없기 때문에 표본을 추출한 후 표본의 표준편차를 계산하여 이를 통해 모집단의 편차를 추정하려는 것인데, 방금 전 확인한 것처럼 표본의 표준편차는 모집단의 표준편차보다 항상 작습니다.

따라서 표본의 분산에 수정을 해야 모집단 분산에 근접한 값이 나오는데, 수정 지수로 이용되는 것이 베셀(Bessele’s) 보정 지수 ⁿ ⁄ _n-1입니다.

즉, 표본의 분산을 계산한 후 베셀의 보정 지수(ⁿ ⁄ _n-1)를 곱해야 모집단 분산과 비슷해지는 것입니다.

그런데 표본의 분산에 베셀 보정 지수를 곱하면 어떤 결과가 될까요? 아래 식을 한번 보시기 바랍니다.

위 식에서 확인할 수 있는 것처럼 표본의 분산을 계산할 때 분모는 결국 n-1이 되는 것을 확인할 수 있습니다.

수식이 눈에 잘 들어오지 않는다면, 표본의 분산은 모분산 보다 작을 수 밖에 없는데, 표본의 분산 값을 모분산 값에 근접시키기 위해서 n이 아니라 그보다 작은 수인 n-1로 나누는 것이라고 생각해도 됩니다.

자유도(degree of freedom)를 고려해야 하므로 n-1

통계학을 공부하다 보면, 표본의 분산을 계산할 때 자유도를 고려해야 하므로 분모는 n-1이 되어야 한다는 설명을 접하게 됩니다.

그런데, 통계에서 자유도란 개념은 이해하기가 쉽지 않습니다. 아래에서 설명을 하기는 하지만 만약 이해가 잘 안된다면, 그냥 그런게 있다고 넘어 가시기 바랍니다.

자유도(degree of freedom)는 ‘표본 집단 내에서 모집단에 대한 정보를 주는 독립적인 자료의 수’입니다. 이 용어에 느닷없이 왜 ‘자유(freedom)’란 들어가 있는지 궁금할텐데요, 여기서 자유는 어떤 자료 값이 사전적으로 정해진 것이 아니라 어떤 값이든 자유롭게 정해질 수 있다는 의미에서의 자유입니다. 예를 통해 이에 대해 좀더 자세히 알아 보겠습니다.

3명의 구성원이 있는 어떤 가족의 몸무게 평균이 60㎏임을 알고 있을 경우, 엄마의 몸무게가 55㎏, 아빠의 몸무게가 80㎏ 이라면 딸의 몸무게는 물어 보지 않아도 자동으로 알게 됩니다. 왜냐하면 평균 60㎏이 되기 위해서는 딸의 몸무게는 45㎏이어야 하기 때문입니다.

이처럼 3명의 구성원이 있는 집단의 몸무게 평균을 알고 있는 경우, 2명의 몸무게를 알게 되면 1명의 몸무게는 자동으로 알게 됩니다. 구성원 수를 늘려도 마찬가지 논리가 적용됩니다. 10명의 구성원이 있는 집단의 몸무게 평균을 알고 있다면, 9명의 몸무게만 알면 나머지 1명의 몸무게는 자동으로 알게 됩니다.

이상의 내용이 의미하는 것은 3명의 구성원이 있는 집단의 경우 2명의 몸무게는 어떤 몸무게든 자유롭게 취할 수 있지만 나머지 한 명은 그렇지 않다는 것입니다. 즉, 자유도는 2라는 것이죠. 평균이 알려진 10명의 구성원이 있는 집단의 경우의 자유도는 10-1인 9가 될 것입니다.

그런데, 우리는 왜 표본 분산의 자유도가 n-1 이어야 하는 것을 알고자 했습니다. 방금 전에 예로 든 내용은 평균을 이미 알고 있는 경우이니까, 표본의 분산을 계산하는 것에 직접적으로 연결할 수 있는 것은 아닙니다.

그러나, 직접적이지는 않지만 간접적으로는 연결이 됩니다.

왜냐하면, 표본의 분산을 계산하는 목적은 표본 자체가 아니라 모집단의 분산을 추정하기 위한 것이고, 이러한 추정을 위해 우리가 표본의 개별 자료 값에서 표본 평균을 빼기는 하지만, 이 때의 표본 평균은 모집단 평균의 추정치인 것이므로, 표본의 분산을 계산할 때 우리는 모집단의 평균을 알고 있다고 가정하는 셈입니다.

따라서 모집단의 평균을 이미 알고 있다고 가정하는 것과 같으므로 결과적으로 앞에서 본 것처럼 표본의 분산을 계산할 때 자유도 개수는 n-1개가 됩니다.

지금까지 표본의 분산을 계산할 때 분모가 n이 아니라 n-1 이어야 하는 이유에 대해 2가지 방식으로 이해를 해 보았습니다.

하나는 표본의 분산이 모분산 보다 작기 때문에 이를 보정하기 위해 ⁿ ⁄ _n-1을 곱하여 수정해야 하기 때문이란 것이고,

다른 하나는 표본의 분산을 계산할 때 자유도는 n-1이기 때문이란 것이었습니다.

이론적으로는 자유도 개념에 따라 표본의 분산 계산시 분모가 n-1 이어야 하는 것이지만, 자유도 개념에 대해 이해가 잘 되지 않는다면, 분모를 n으로 두고 계산한 표본의 분산은 모분산 보다 항상 작을 수 밖에 없기 때문에 n-1로 나눈다고 기억해도 됩니다.

글 머리에 있는 표준편차 계산기는 입력한 자료 값이 모집단이라고 가정하여 계산한 모분산과 모 표준편차를 계산하여 표시한 후, 그 아래에 입력한 자료 값이 표본이라 가정하여 계산한 분산과 표준편차도 따로 표시하므로, 상황에 따라 필요한 결과 값을 이용하시기 바랍니다.