✖️ 통계 용어, 방법론, 측정 척도, 도수분포표/도수그래프
모집단 (Population)
• 연구자가 관심을 가지는 전체 집단을 의미함.
• 예: 한 나라의 모든 대학생, 특정 질병을 가진 모든 환자, 특정 공장에서 생산한 모든 제품.
표본 (Sample)
• 모집단에서 선택된 일부를 의미하며, 모집단을 대표할 수 있어야 함.
• 예: 한 나라의 대학생 1,000명을 무작위로 선택한 그룹, 특정 공장에서 임의로 뽑은 제품 100개.
변수 (Variable)
• 연구에서 관찰하거나 측정하는 특성.
• 종류:
• 질적 변수 (Categorical Variable): 성별, 혈액형, 국적 등.
• 양적 변수 (Quantitative Variable): 키, 몸무게, 소득 등.
모수 (Parameter)
• 모집단의 특성을 나타내는 값으로, 일반적으로 알기 어렵기 때문에 추정해야 함.
• 예: 모집단의 평균, 모집단의 표준편차.
통계량 (Statistics)
• 표본에서 계산된 값으로, 모수를 추정하는 데 사용됨.
• 예: 표본 평균, 표본 표준편차.
✖️ 통계 방법론
1. 기술 통계 (Descriptive Statistics)
• 데이터를 요약하고 정리하는 방법. (그래프, 도표, 통계량..)
• 대표적인 기법:
• 중심 경향 (Central Tendency): 평균(mean), 중앙값(median), 최빈값(mode).
• 산포도 (Dispersion): 범위(range), 분산(variance), 표준편차(standard deviation).
• 시각화: 히스토그램(histogram), 상자 그림(box plot) 등.
2. 통계 추론 (Inferential Statistics)
• 표본 데이터를 바탕으로 모집단에 대한 결론을 도출하는 과정.
• 주요 기법:
• 가설 검정 (Hypothesis Testing): 모집단에 대한 가설을 세우고 표본 데이터를 통해 검정.
• 추정 (Estimation): 표본을 이용하여 모집단의 모수를 추정 (점추정, 구간추정).
• 회귀 분석 (Regression Analysis): 변수 간의 관계를 모델링하여 예측.
변수 측정 척도 (Scale of Measurement)
✖️ 측정 척도
범주형 변수 (Categorical Variable, 질적 변수)
숫자로 표현할 수 있지만, 수학적 연산이 의미가 없는 변수
① 명목척도 (Nominal Scale)
• 변수의 값이 서로 다르다는 것만 나타내는 척도 (서열 정보 없음).
• 단순히 분류(이름, 유형)만 가능하고, 크기 비교가 불가능함.
• 수학적 연산: 없음 (연산 불가능)
• 대표적인 통계 방법: 빈도분석, 모드(최빈값)
✅ 예제
• 성별 (남성 = 1, 여성 = 2)
• 혈액형 (A, B, O, AB)
• 국적 (한국, 일본, 미국)
② 순서척도 (Ordinal Scale)
• 값들이 **순서(서열)**를 가지지만, 크기 간격은 일정하지 않음.
• 즉, “순위” 정보는 있지만, 두 값 사이의 차이는 의미가 없음.
• 수학적 연산: 크기 비교(>, <) 가능하지만, 덧셈·뺄셈 등 연산 불가능
• 대표적인 통계 방법: 순위 분석, 중앙값(median)
✅ 예제
• 영화 평점 (⭐~⭐⭐⭐⭐⭐)
• 학력 수준 (초등학교 < 중학교 < 고등학교 < 대학교)
• 만족도 조사 (매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족)
연속형 변수 (Continuous Variable, 양적 변수)
숫자로 표현되며, 수학적 연산(덧셈, 뺄셈 등)이 의미 있는 변수
③ 구간척도 (Interval Scale)
• 값들 사이의 간격(차이)이 동일하지만, 절대적 0점이 없음.
• 즉, 0이라는 값이 “없음”을 의미하는 것이 아니라, 하나의 기준점일 뿐임.
• 수학적 연산: 덧셈·뺄셈 가능, 비율 계산(나눗셈)은 불가능
• 대표적인 통계 방법: 평균(mean), 표준편차(standard deviation)
✅ 예제
• 섭씨온도(°C), 화씨온도(°F) → 0°C는 ‘온도가 없음’을 의미하지 않음.
• IQ (지능지수) → IQ 0이라는 개념이 존재하지 않음.
• 연도(Year) → 0년이 절대적인 기준이 아님.
④ 비율척도 (Ratio Scale)
• 값들 사이의 간격(차이)이 동일하며, 절대적 0점(기준점)이 존재함.
• 즉, 0이 ‘없음(none)’을 의미하며, 비율 계산이 가능함.
• 수학적 연산: 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능
• 대표적인 통계 방법: 기하평균(geometric mean), 중앙값(median), 평균(mean)
✅ 예제
• 나이 (20살 vs. 40살 → 40살은 20살의 2배 나이가 맞음)
• 키(cm), 몸무게(kg) → 0cm, 0kg은 ‘없는 상태’를 의미함.
• 소득 (연봉 0원은 수입이 없는 상태)
명목척도 (Nominal) | 단순한 분류 (서열 없음) | X | 성별, 혈액형, 국적 |
순서척도 (Ordinal) | 순위 존재 (간격 불규칙) | >, < 가능 | 학력 수준, 영화 평점 |
구간척도 (Interval) | 간격 일정 (절대적 0 없음) | +, - 가능 | 섭씨온도, IQ, 연도 |
비(율)척도 (Ratio) | 간격 일정 (절대적 0 있음) | +, -, ×, ÷ 가능 | 나이, 키, 몸무게 |
✖️ 도수분포표/도수그래프
변수 : 특징들 ( 학년, 선호 음료, 식구 ... )
관측치 obs : 응답값 ( 2학년, 식혜, 엄마 .. )
도수분포표 (Frequency Distribution Table)
도수분포표는 자료를 구간(계급)으로 나누고, 각 계급에 속하는 데이터의 개수(도수)를 정리한 표
데이터의 분포를 쉽게 파악할 수 있도록 함
계급(Class Interval): 데이터 범위를 일정한 간격으로 나눈 것 (예: 1019, 2029)
계급값(Class Mark): 각 계급의 대표값 (계급의 중간값)
도수(Frequency): 각 계급에 속하는 데이터의 개수
상대도수(Relative Frequency): 전체 데이터에서 해당 계급이 차지하는 비율
누적도수(Cumulative Frequency): 해당 계급까지의 도수 합계
누적상대도수 : 누적도수를 전체 자료의 개수로 나누어 준 것
범주형 자료의 도수분포표 / 연속형 자료의 도수분포표
도수그래프 (Frequency Graph)
도수분포표를 시각적으로 나타낸 그래프를 의미
다양한 종류
히스토그램 (Histogram)
그룹화된 연속된 자료의 도수그래프
• 가로축: 계급 (구간)
• 세로축: 도수 (빈도)
• 막대그래프처럼 생겼지만, 막대 간격이 없음 (연속된 값 표현)
✖️ 위치 통계량
평균 (Mean)
• 데이터를 모두 더한 후 데이터 개수로 나눈 값.
• 가장 일반적으로 사용되는 대표값.
• 장점: 데이터를 모두 반영하여 대표성을 가짐.
• 단점: 극단값(이상치, Outlier)의 영향을 많이 받음.
중위수 / 중앙값 (Median)
• 데이터를 크기 순서대로 정렬했을 때, 가운데 위치한 값.
• 데이터 개수가 홀수이면 가운데 값, 짝수이면 가운데 두 개의 평균.
• 장점: 극단값(이상치)의 영향을 받지 않음.
• 단점: 모든 데이터 값을 고려하지 않음.
최빈값 (Mode)
• 가장 자주 등장하는 값.
• 하나 이상의 최빈값이 존재할 수도 있음.
• 장점: 범주형 데이터(예: 설문조사 응답)에서 대표값으로 사용 가능.
• 단점: 모든 데이터가 한 번씩만 나오면 최빈값이 없음.
g-g 절단평균 (g-g Trimmed Mean)
• 일정 비율의 극단값(양 끝값)을 제거하고 평균을 계산하는 방법.
• 데이터가 많을 때 극단값(outlier)의 영향을 줄이기 위해 사용.
• 장점: 극단값의 영향을 줄여 평균을 안정적으로 만듦.
• 단점: 일부 데이터를 제거하기 때문에 정보 손실이 발생할 수 있음.
g-g 윈저화 평균 (g-g Winsorized Mean)
• 절단평균과 유사하지만 극단값을 제거하는 대신, 특정 비율의 값들을 가장 가까운 값으로 대체한 후 평균을 계산.
• 장점: 극단값을 줄이면서도 데이터 손실을 최소화함.
• 단점: 원래 데이터에서 값이 조작되었기 때문에 통계적 해석이 어려울 수 있음.