본문 바로가기
  • 컴공생의 공부 일기
  • 공부보단 일기에 가까운 것 같은
  • 블로그
🔢 수학/확률 및 통계학

✖️ 확률과 통계학 : 용어, 방법론, 측정 척도, 도수분포표/도수그래프, 위치 통계량

by 정람지 2025. 3. 16.

✖️ 통계 용어, 방법론, 측정 척도, 도수분포표/도수그래프

 

모집단 (Population)

 연구자가 관심을 가지는 전체 집단을 의미함.

 예: 한 나라의 모든 대학생, 특정 질병을 가진 모든 환자, 특정 공장에서 생산한 모든 제품.

 

표본 (Sample)

 모집단에서 선택된 일부를 의미하며, 모집단을 대표할 수 있어야 함.

 예: 한 나라의 대학생 1,000명을 무작위로 선택한 그룹, 특정 공장에서 임의로 뽑은 제품 100개.

 

변수 (Variable)

 연구에서 관찰하거나 측정하는 특성.

 종류:

 질적 변수 (Categorical Variable): 성별, 혈액형, 국적 등.

 양적 변수 (Quantitative Variable): 키, 몸무게, 소득 등.

 

모수 (Parameter)

 모집단의 특성을 나타내는 값으로, 일반적으로 알기 어렵기 때문에 추정해야 함.

 예: 모집단의 평균, 모집단의 표준편차.

 

통계량 (Statistics)

 표본에서 계산된 값으로, 모수를 추정하는 데 사용됨.

 예: 표본 평균, 표본 표준편차.


✖️ 통계 방법론

 

1. 기술 통계 (Descriptive Statistics)

 데이터를 요약하고 정리하는 방법. (그래프, 도표, 통계량..)

 대표적인 기법:

 중심 경향 (Central Tendency): 평균(mean), 중앙값(median), 최빈값(mode).

 산포도 (Dispersion): 범위(range), 분산(variance), 표준편차(standard deviation).

 시각화: 히스토그램(histogram), 상자 그림(box plot) 등.

 

2. 통계 추론 (Inferential Statistics)

 표본 데이터를 바탕으로 모집단에 대한 결론을 도출하는 과정.

 주요 기법:

 가설 검정 (Hypothesis Testing): 모집단에 대한 가설을 세우고 표본 데이터를 통해 검정.

 추정 (Estimation): 표본을 이용하여 모집단의 모수를 추정 (점추정, 구간추정).

 회귀 분석 (Regression Analysis): 변수 간의 관계를 모델링하여 예측.

변수 측정 척도 (Scale of Measurement)


✖️ 측정 척도

 

범주형 변수 (Categorical Variable, 질적 변수)

숫자로 표현할 수 있지만, 수학적 연산이 의미가 없는 변수

 

 

① 명목척도 (Nominal Scale)

 변수의 값이 서로 다르다는 것만 나타내는 척도 (서열 정보 없음).

 단순히 분류(이름, 유형)만 가능하고, 크기 비교가 불가능함.

 수학적 연산: 없음 (연산 불가능)

 대표적인 통계 방법: 빈도분석, 모드(최빈값)

 예제

 성별 (남성 = 1, 여성 = 2)

 혈액형 (A, B, O, AB)

 국적 (한국, 일본, 미국)

 

 

② 순서척도 (Ordinal Scale)

 값들이 **순서(서열)**를 가지지만, 크기 간격은 일정하지 않음.

 즉, “순위” 정보는 있지만, 두 값 사이의 차이는 의미가 없음.

 수학적 연산: 크기 비교(>, <) 가능하지만, 덧셈·뺄셈 등 연산 불가능

 대표적인 통계 방법: 순위 분석, 중앙값(median)

 예제

 영화 평점 (⭐~⭐⭐⭐⭐⭐)

 학력 수준 (초등학교 < 중학교 < 고등학교 < 대학교)

 만족도 조사 (매우 불만족 < 불만족 < 보통 < 만족 < 매우 만족)


 

연속형 변수 (Continuous Variable, 양적 변수)

숫자로 표현되며, 수학적 연산(덧셈, 뺄셈 등)이 의미 있는 변수

 

 

③ 구간척도 (Interval Scale)

 값들 사이의 간격(차이)이 동일하지만, 절대적 0점이 없음.

 즉, 0이라는 값이 “없음”을 의미하는 것이 아니라, 하나의 기준점일 뿐임.

 수학적 연산: 덧셈·뺄셈 가능, 비율 계산(나눗셈)은 불가능

 대표적인 통계 방법: 평균(mean), 표준편차(standard deviation)

 예제

 섭씨온도(°C), 화씨온도(°F) → 0°C는 ‘온도가 없음’을 의미하지 않음.

 IQ (지능지수) → IQ 0이라는 개념이 존재하지 않음.

 연도(Year) → 0년이 절대적인 기준이 아님.

 

 

 

④ 비율척도 (Ratio Scale)

 값들 사이의 간격(차이)이 동일하며, 절대적 0점(기준점)이 존재함.

 즉, 0이 ‘없음(none)’을 의미하며, 비율 계산이 가능함.

 수학적 연산: 덧셈, 뺄셈, 곱셈, 나눗셈 모두 가능

 대표적인 통계 방법: 기하평균(geometric mean), 중앙값(median), 평균(mean)

 예제

 나이 (20살 vs. 40살 → 40살은 20살의 2배 나이가 맞음)

 키(cm), 몸무게(kg) → 0cm, 0kg은 ‘없는 상태’를 의미함.

 소득 (연봉 0원은 수입이 없는 상태)

 

 

 

 

명목척도 (Nominal) 단순한 분류 (서열 없음) X 성별, 혈액형, 국적
순서척도 (Ordinal) 순위 존재 (간격 불규칙) >, < 가능 학력 수준, 영화 평점
구간척도 (Interval) 간격 일정 (절대적 0 없음) +, - 가능 섭씨온도, IQ, 연도
비(율)척도 (Ratio) 간격 일정 (절대적 0 있음) +, -, ×, ÷ 가능 나이, 키, 몸무게

✖️ 도수분포표/도수그래프

변수 : 특징들 ( 학년, 선호 음료, 식구 ... )

관측치 obs : 응답값 ( 2학년, 식혜, 엄마 .. )

 

 

도수분포표 (Frequency Distribution Table)

 

도수분포표는 자료를 구간(계급)으로 나누고, 각 계급에 속하는 데이터의 개수(도수)를 정리한 표

데이터의 분포를 쉽게 파악할 수 있도록 함

 

계급(Class Interval): 데이터 범위를 일정한 간격으로 나눈 것 (예: 1019, 2029)

계급값(Class Mark): 각 계급의 대표값 (계급의 중간값)

도수(Frequency): 각 계급에 속하는 데이터의 개수

상대도수(Relative Frequency): 전체 데이터에서 해당 계급이 차지하는 비율 

누적도수(Cumulative Frequency): 해당 계급까지의 도수 합계

누적상대도수 : 누적도수를 전체 자료의 개수로 나누어 준 것 

 

 

범주형 자료의 도수분포표 / 연속형 자료의 도수분포표


 

 

 도수그래프 (Frequency Graph)

도수분포표를 시각적으로 나타낸 그래프를 의미

다양한 종류

 

히스토그램 (Histogram)

그룹화된 연속된 자료의 도수그래프

 가로축: 계급 (구간)

 세로축: 도수 (빈도)

 막대그래프처럼 생겼지만, 막대 간격이 없음 (연속된 값 표현)


✖️ 위치 통계량

평균 (Mean)

 데이터를 모두 더한 후 데이터 개수로 나눈 값.

 가장 일반적으로 사용되는 대표값.

 장점: 데이터를 모두 반영하여 대표성을 가짐.

 단점: 극단값(이상치, Outlier)의 영향을 많이 받음.

 

중위수 / 중앙값 (Median)

 데이터를 크기 순서대로 정렬했을 때, 가운데 위치한 값.

 데이터 개수가 홀수이면 가운데 값, 짝수이면 가운데 두 개의 평균.

 장점: 극단값(이상치)의 영향을 받지 않음.

 단점: 모든 데이터 값을 고려하지 않음.

 

최빈값 (Mode)

 가장 자주 등장하는 값.

 하나 이상의 최빈값이 존재할 수도 있음.

 장점: 범주형 데이터(예: 설문조사 응답)에서 대표값으로 사용 가능.

 단점: 모든 데이터가 한 번씩만 나오면 최빈값이 없음.

 

 

g-g 절단평균 (g-g Trimmed Mean)

 일정 비율의 극단값(양 끝값)을 제거하고 평균을 계산하는 방법.

 데이터가 많을 때 극단값(outlier)의 영향을 줄이기 위해 사용.

 장점: 극단값의 영향을 줄여 평균을 안정적으로 만듦.

 단점: 일부 데이터를 제거하기 때문에 정보 손실이 발생할 수 있음.

 

g-g 윈저화 평균 (g-g Winsorized Mean)

 절단평균과 유사하지만 극단값을 제거하는 대신, 특정 비율의 값들을 가장 가까운 값으로 대체한 후 평균을 계산.

 장점: 극단값을 줄이면서도 데이터 손실을 최소화함.

 단점: 원래 데이터에서 값이 조작되었기 때문에 통계적 해석이 어려울 수 있음.