표준편차 계산기

모집단 또는 표본의 표준편차를 단계별로 계산합니다.

데이터 입력

계산 모드

전체 데이터 세트가 있을 때 사용합니다. (제수: N)

데이터 값

쉼표, 공백 또는 줄바꿈으로 구분된 숫자입니다.

결과

표준편차(σ)

2.467793

개수(N)

10

합계

51

최소값

1

최대값

9

평균(μ)

5.1

분산(σ²)

6.09

표준편차 — 그 의미와 활용 방법

표준편차(Standard Deviation)는 데이터 세트의 산포도(퍼짐 정도)를 나타낼 때 가장 널리 사용되는 척도입니다. 개별 값들이 일반적으로 평균에서 얼마나 떨어져 있는지를 수치화합니다. 표준편차가 작으면 데이터가 평균 근처에 오밀조밀 모여 있다는 뜻이고, 크면 데이터가 넓게 퍼져 있다는 의미입니다.

표준편차란 무엇인가?

$N$ 개의 값으로 이루어진 데이터 집합 $\{x_1, x_2, \ldots, x_N\}$ 가 주어졌을 때, 표준편차 계산은 5단계로 진행됩니다:

평균 구하기 $\bar{x} = \dfrac{\sum_{i=1}^{N} x_i}{N}$
각각의 편차 구하기 $d_i = x_i - \bar{x}$
각 편차를 제곱하기 $d_i^2$
제곱된 편차들의 평균 구하기 (이 값이 '분산'이 됩니다)
제곱근(루트) 씌우기 (이 값이 '표준편차'가 됩니다)

마지막 단계에서 제곱근을 구하면 계산 단위가 원래 데이터와 동일한 척도로 돌아오므로, 평균과 함께 표준편차를 직관적으로 해석하기 쉬워집니다.

모집단(Population) 의 경우 (관심 대상 그룹 전체의 $N$ 개 값을 모두 알고 있을 때):

\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}

표본(Sample) 의 경우 ( $N$ 개의 값이 더 큰 그룹에서 추출된 일부일 때):

s = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \bar{x})^2}{N - 1}}

표본 표준편차에서 N−1로 나누는 이유 (베셀의 수정)

오직 표본 데이터만 있을 때는, 당연하게도 표본 평균 $\bar{x}$ 가 진짜 모집단 평균 $\mu$ 보다 추출된 표본 값들에 조금 더 가깝게 위치합니다. 이로 인해 생 가공되지 않은 편차의 제곱합이 원래 나와야 할 값보다 조금 작아집니다. 즉, 그냥 $N$ 으로 나누게 되면 모집단 분산을 실제보다 더 작게(편향되게) 추정하게 됩니다.

그래서 $N$ 대신 $N - 1$ 로 나누어 이러한 편향을 바로잡습니다. 이 조정을 베셀의 수정(Bessel's correction) 이라고 하며, 이를 통해 $s^2$ 이 모집단 분산 $\sigma^2$ 의 불편추정량(unbiased estimator) 이 될 수 있습니다.

직관적인 이해: 크기가 $N$ 인 표본의 경우, 진짜로 "자유로운" 편차는 $N - 1$ 개뿐입니다. 처음 $N - 1$ 개의 편차와 평균값이 정해지고 나면, 나머지 마지막 편차는 수학적으로 이미 정해져 버리기 때문입니다. 따라서 자유도(degrees of freedom) 는 $N - 1$ 이 됩니다.

표본 크기가 커지면 $N$ 과 $N - 1$ 이 거의 비슷해져 그 차이가 사라집니다. 아주 큰 표본은 사실상 전체 모집단과 다름없다는 뜻이므로 상식적으로도 이치에 맞습니다.

표본에서 모집단으로: 표준 오차

표본 표준편차 $s$ 는 표본 내에서의 데이터가 얼마나 퍼져 있는지를 설명해줍니다. 하지만 연구자들은 종종 표본 평균 $\bar{x}$ 가 모집단 평균 $\mu$ 를 얼마나 정확하게 추정하고 있는지 파악하는 것에 더 관심이 있습니다.

그에 대한 답이 바로 표준 오차(SEM, Standard Error of the Mean) 입니다:

\text{SEM} = \frac{s}{\sqrt{N}}

데이터를 더 많이 수집할수록 SEM은 줄어듭니다 ( $1/\sqrt{N}$ 에 비례). 표본의 크기가 클수록 더욱 신뢰할 수 있는 추정치를 얻을 수 있다는 직관을 수치화한 셈입니다.

예를 들어 $N = 25$ 명의 학생 점수 표본에서 점수의 표준편차가 $s = 10$ 이라면, SEM은 $10 / \sqrt{25} = 2$ 가 됩니다. 진짜 평균 점수에 대한 95% 신뢰구간은 대략 $\bar{x} \pm 1.96 \times \text{SEM}$ 입니다. 여기서 1.96은 전체 면적의 가운데 95%를 포함하는 표준정규분포의 임계값(critical value)입니다.

이 계산기 사용 방법

텍스트 영역에 쉼표, 공백, 또는 줄바꿈으로 구분하여 값을 입력합니다.
모드를 선택합니다 — 여러분의 데이터가 관심 있는 그룹 전체를 대변한다면 모집단을, 더 큰 모집단의 일부라면 표본을 사용하세요.
계산하기를 클릭합니다 (또는 기본값 그대로 두고 예제를 확인해보세요).
결과를 확인합니다 — 카드에는 개수, 합계, 평균, 분산, 표준편차가 각각 적절한 기호( $\mu$ / $\bar{x}$ , $\sigma^2$ / $s^2$ , $\sigma$ / $s$ )와 함께 표시됩니다.
단계별 풀이 섹션을 펼치면, LaTeX로 깔끔하게 렌더링된 전체 계산 과정을 단계별로 볼 수 있습니다.

결과 해석 방법

통계치	모집단 기호	표본 기호	의미
데이터 개수	$N$	$N$	입력한 값의 개수
합계	$\sum x_i$	$\sum x_i$	모든 값을 더한 총합
평균	$\mu$	$\bar{x}$	데이터의 평균값
분산	$\sigma^2$	$s^2$	편차를 제곱한 값들의 평균
표준편차	$\sigma$	$s$	평균에서 벗어난 일반적인 거리

표준편차가 0에 가깝다면 데이터 값들이 거의 동일하다는 의미입니다. 표준편차가 평균보다 훨씬 크다면 데이터 간의 상대적인 변동성이 매우 높다는 신호입니다.