✖️ 확률과 통계학 : 용어, 방법론, 측정 척도, 도수분포표/도수그래프, 위치 통계량

✖️ 통계 용어, 방법론, 측정 척도, 도수분포표/도수그래프

모집단 (Population)

• 연구자가 관심을 가지는 전체 집단을 의미함.

• 예: 한 나라의 모든 대학생, 특정 질병을 가진 모든 환자, 특정 공장에서 생산한 모든 제품.

표본 (Sample)

• 모집단에서 선택된 일부를 의미하며, 모집단을 대표할 수 있어야 함.

• 예: 한 나라의 대학생 1,000명을 무작위로 선택한 그룹, 특정 공장에서 임의로 뽑은 제품 100개.

변수 (Variable)

• 연구에서 관찰하거나 측정하는 특성.

• 종류:

• 질적 변수 (Categorical Variable): 성별, 혈액형, 국적 등.

• 양적 변수 (Quantitative Variable): 키, 몸무게, 소득 등.

모수 (Parameter)

• 모집단의 특성을 나타내는 값으로, 일반적으로 알기 어렵기 때문에 추정해야 함.

• 예: 모집단의 평균, 모집단의 표준편차.

통계량 (Statistics)

• 표본에서 계산된 값으로, 모수를 추정하는 데 사용됨.

• 예: 표본 평균, 표본 표준편차.

✖️ 통계 방법론

1. 기술 통계 (Descriptive Statistics)

• 데이터를 요약하고 정리하는 방법. (그래프, 도표, 통계량..)

• 대표적인 기법:

• 중심 경향 (Central Tendency): 평균(mean), 중앙값(median), 최빈값(mode).

• 산포도 (Dispersion): 범위(range), 분산(variance), 표준편차(standard deviation).

• 시각화: 히스토그램(histogram), 상자 그림(box plot) 등.

2. 통계 추론 (Inferential Statistics)

• 표본 데이터를 바탕으로 모집단에 대한 결론을 도출하는 과정.

• 주요 기법:

• 가설 검정 (Hypothesis Testing): 모집단에 대한 가설을 세우고 표본 데이터를 통해 검정.

• 추정 (Estimation): 표본을 이용하여 모집단의 모수를 추정 (점추정, 구간추정).

• 회귀 분석 (Regression Analysis): 변수 간의 관계를 모델링하여 예측.

변수 측정 척도 (Scale of Measurement)

✖️ 측정 척도

범주형 변수 (Categorical Variable, 질적 변수)

숫자로 표현할 수 있지만, 수학적 연산이 의미가 없는 변수

① 명목척도 (Nominal Scale)

• 변수의 값이 서로 다르다는 것만 나타내는 척도 (서열 정보 없음).

• 단순히 분류(이름, 유형)만 가능하고, 크기 비교가 불가능함.

• 수학적 연산: 없음 (연산 불가능)

• 대표적인 통계 방법: 빈도분석, 모드(최빈값)

✅ 예제

• 성별 (남성 = 1, 여성 = 2)

• 혈액형 (A, B, O, AB)

• 국적 (한국, 일본, 미국)

② 순서척도 (Ordinal Scale)

• 값들이 **순서(서열)**를 가지지만, 크기 간격은 일정하지 않음.

• 즉, “순위” 정보는 있지만, 두 값 사이의 차이는 의미가 없음.

• 수학적 연산: 크기 비교(>, <) 가능하지만, 덧셈·뺄셈 등 연산 불가능

• 대표적인 통계 방법: 순위 분석, 중앙값(median)

✅ 예제

• 영화 평점 (⭐~⭐⭐⭐⭐⭐)

• 학력 수준 (초등학교 < 중학교 < 고등학교 < 대학교)

• 만족도 조사 (매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족)

연속형 변수 (Continuous Variable, 양적 변수)

숫자로 표현되며, 수학적 연산(덧셈, 뺄셈 등)이 의미 있는 변수

③ 구간척도 (Interval Scale)

• 값들 사이의 간격(차이)이 동일하지만, 절대적 0점이 없음.

• 즉, 0이라는 값이 “없음”을 의미하는 것이 아니라, 하나의 기준점일 뿐임.

• 수학적 연산: 덧셈·뺄셈 가능, 비율 계산(나눗셈)은 불가능

• 대표적인 통계 방법: 평균(mean), 표준편차(standard deviation)

✅ 예제

• 섭씨온도(°C), 화씨온도(°F) → 0°C는 ‘온도가 없음’을 의미하지 않음.

• IQ (지능지수) → IQ 0이라는 개념이 존재하지 않음.

• 연도(Year) → 0년이 절대적인 기준이 아님.

④ 비율척도 (Ratio Scale)

• 값들 사이의 간격(차이)이 동일하며, 절대적 0점(기준점)이 존재함.

• 즉, 0이 ‘없음(none)’을 의미하며, 비율 계산이 가능함.

• 수학적 연산: 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능

• 대표적인 통계 방법: 기하평균(geometric mean), 중앙값(median), 평균(mean)

✅ 예제

• 나이 (20살 vs. 40살 → 40살은 20살의 2배 나이가 맞음)

• 키(cm), 몸무게(kg) → 0cm, 0kg은 ‘없는 상태’를 의미함.

• 소득 (연봉 0원은 수입이 없는 상태)

명목척도 (Nominal)	단순한 분류 (서열 없음)	X	성별, 혈액형, 국적
순서척도 (Ordinal)	순위 존재 (간격 불규칙)	>, < 가능	학력 수준, 영화 평점
구간척도 (Interval)	간격 일정 (절대적 0 없음)	+, - 가능	섭씨온도, IQ, 연도
비(율)척도 (Ratio)	간격 일정 (절대적 0 있음)	+, -, ×, ÷ 가능	나이, 키, 몸무게

✖️ 도수분포표/도수그래프

변수 : 특징들 ( 학년, 선호 음료, 식구 ... )

관측치 obs : 응답값 ( 2학년, 식혜, 엄마 .. )

도수분포표 (Frequency Distribution Table)

도수분포표는 자료를 구간(계급)으로 나누고, 각 계급에 속하는 데이터의 개수(도수)를 정리한 표

데이터의 분포를 쉽게 파악할 수 있도록 함

계급(Class Interval): 데이터 범위를 일정한 간격으로 나눈 것 (예: 1019, 2029)

계급값(Class Mark): 각 계급의 대표값 (계급의 중간값)

도수(Frequency): 각 계급에 속하는 데이터의 개수

상대도수(Relative Frequency): 전체 데이터에서 해당 계급이 차지하는 비율

누적도수(Cumulative Frequency): 해당 계급까지의 도수 합계

누적상대도수 : 누적도수를 전체 자료의 개수로 나누어 준 것

범주형 자료의 도수분포표 / 연속형 자료의 도수분포표

도수그래프 (Frequency Graph)

도수분포표를 시각적으로 나타낸 그래프를 의미

다양한 종류

히스토그램 (Histogram)

그룹화된 연속된 자료의 도수그래프

• 가로축: 계급 (구간)

• 세로축: 도수 (빈도)

• 막대그래프처럼 생겼지만, 막대 간격이 없음 (연속된 값 표현)

✖️ 위치 통계량

평균 (Mean)

• 데이터를 모두 더한 후 데이터 개수로 나눈 값.

• 가장 일반적으로 사용되는 대표값.

• 장점: 데이터를 모두 반영하여 대표성을 가짐.

• 단점: 극단값(이상치, Outlier)의 영향을 많이 받음.

중위수 / 중앙값 (Median)

• 데이터를 크기 순서대로 정렬했을 때, 가운데 위치한 값.

• 데이터 개수가 홀수이면 가운데 값, 짝수이면 가운데 두 개의 평균.

• 장점: 극단값(이상치)의 영향을 받지 않음.

• 단점: 모든 데이터 값을 고려하지 않음.

최빈값 (Mode)

• 가장 자주 등장하는 값.

• 하나 이상의 최빈값이 존재할 수도 있음.

• 장점: 범주형 데이터(예: 설문조사 응답)에서 대표값으로 사용 가능.

• 단점: 모든 데이터가 한 번씩만 나오면 최빈값이 없음.

g-g 절단평균 (g-g Trimmed Mean)

• 일정 비율의 극단값(양 끝값)을 제거하고 평균을 계산하는 방법.

• 데이터가 많을 때 극단값(outlier)의 영향을 줄이기 위해 사용.

• 장점: 극단값의 영향을 줄여 평균을 안정적으로 만듦.

• 단점: 일부 데이터를 제거하기 때문에 정보 손실이 발생할 수 있음.

g-g 윈저화 평균 (g-g Winsorized Mean)

• 절단평균과 유사하지만 극단값을 제거하는 대신, 특정 비율의 값들을 가장 가까운 값으로 대체한 후 평균을 계산.

• 장점: 극단값을 줄이면서도 데이터 손실을 최소화함.

• 단점: 원래 데이터에서 값이 조작되었기 때문에 통계적 해석이 어려울 수 있음.

저작자표시

은체공부

✖️ 확률과 통계학 : 용어, 방법론, 측정 척도, 도수분포표/도수그래프, 위치 통계량

✖️ 통계 용어, 방법론, 측정 척도, 도수분포표/도수그래프

✖️ 통계 방법론

✖️ 측정 척도

범주형 변수 (Categorical Variable, 질적 변수)

연속형 변수 (Continuous Variable, 양적 변수)

✖️ 도수분포표/도수그래프

도수분포표 (Frequency Distribution Table)

도수그래프 (Frequency Graph)

✖️ 위치 통계량

티스토리툴바