본문 바로가기
📚 AI 개발 노트

AI를 위한 데이터 분석의 기초 : 통계 ─ Upstage AI Lab 5기 3주차

by YES - IT SPOT 2024. 10. 14.

 📊 데이터 과학, 그 이상을 위한 기초 

업스테이지 AI Lab 3주차 과정에서는 'AI를 위한 기초 수학, 통계'를 주제로 실시간 강의와 온라인 강의를 함께 진행했습니다.

 

이번 3주차 학습은 데이터 분석의 기본을 차근차근 되짚는 시간이었어요. 개념 하나 하나가 실무와 연결되어 있어서, 단순히 외우는게 아니라 '왜 중요한지'를 자연스럽게 이해할 수 있었습니다.

 

무엇보다도 통계적 사고의 중요성을 다시금 느꼈어요. 물론 AI 엔지니어로 성장하기 위해서는 코딩 실력도 중요하지만, 데이터를 어떻게 바라보고 해석하느냐가 AI 엔지니어에게 매우 중요한 기반이라는 것을 깨달았습니다.

 

 


 

 📈 기초 통계에 대한 이해 

처음 통계를 배우기 시작하면서 가장 먼저 마주한 것은 기초 통계량이었습니다. 통계의 시작은 '데이터를 어떻게 요약하느냐'에서 출발하니까요. 그래서 데이터를 이해하는 데 중요한 산술평균, 기하평균, 조화평균 등의 익숙한 대푯값을 체계적으로 배웠습니다. 


🎯 다양한 대푯값들의 특징 

 

구분 설명
산술평균 (mean) 모든 데이터의 합을 데이터의 개수로 나눈 값
기하평균 (gmean) 데이터의 곱의 n제곱근을 취한 값
조화평균 (hmean) 주로 비율 데이터에 사용되며, 데이터의 역수를 평균 낸 뒤 그 값을 다시 뒤집어 계산
최댓값 (max) 가장 큰 값
최빈값 (mode) 가장 자주 나타나는 값
중앙값 (median) 데이터를 크기 순서로 배열했을 때 가운데 있는 값

 

기초 통계의 개념
기초 통계의 개념

 

대푯값은 데이터를 대표하는 숫자로, 우리가 가진 수많은 데이터 중 '어디쯤이 중심인가?'를 알려주는 중요한 지표죠.

 

예를 들어, 가장 익숙한 산술평균은 모든 값을 더해서 개수로 나눈 값이고, 기하평균은 곱의 n제곱근을 쓰는 방식으로 비율 데이터를 다룰 때 유용합니다.

 

조화평균은 속도나 비율처럼 역수가 중요한 데이터에 자주 쓰이고, 최댓값은 말 그대로 가장 큰 값, 최빈값은 가장 많이 등장하는 값을 의미해요. 그리고 중앙값은 데이터를 순서대로 정리했을 때 정중앙에 있는 값으로, 극단값의 영향을 덜 받는 특징이 있습니다.

 

 

이처럼 각각의 대푯값은 쓰임새가 다르고, 데이터의 특성을 이해하는 데 꼭 필요한 요소예요. 단순히 '평균이 몇이야?'가 아니라, 상황에 따라 어떤 대푯값이 더 적합한지 판단하는 통계적 감각이 중요합니다.

 

⚠️ 평균의 함정을 피하는 방법

통계에서 가장 흔히 쓰는 지표는 평균이지만, 그만큼 오해도 많아요. 평균 하나로 데이터를 설명하려다 보면 극단값(아웃라이어)에 쉽게 영향을 받을 수 있거든요.

 

그래서 이번 학습에서 확실히 느낀 건, 단순히 산술평균에만 의존해서는 안 된다는 거였습니다. 경우에 따라서는 중앙값이나 최빈값이 훨씬 더 현실을 잘 반영해줄 수도 있으니까요. 데이터의 특성을 고려해서 '어떤 대푯값이 더 적절한가?"를 고민하는 것, 그게 바로 진짜 통계적 사고라는 것을 배웠습니다.

 

즉, 단순히 평균에 의존하기 보다는 중앙값이나 최빈값처럼, 데이터 특성에 맞는 지표를 적절하게 선택하는 것이 중요합니다.

 

 


 

📊 데이터 분산: 가변성에 대한 통찰력 

그런데 데이터의 중심만 파악한다고 해서 모든 걸 알 수 있는 건 아니예요. 중심값이 같아도 실제 분포가 완전히 다른 경우도 존재하거든요. 예를 들어, 평균이 같은 두 집단이라도 어떤 집단은 값들이 고르게 분포돼 있고, 다른 집단은 극단값이 섞여 있는 경우가 있으니까요.

 

이번 3주차에서는 바로 이런 차이를 이해할 수 있는 '분산'과 '표준편차', 그리고 이외 다양한 분산 지표들을 학습했습니다. 이 값들은 데이터가 얼마나 흩어져 있는지, 즉 가변성(variability)을 수치적으로 나타내 주는 중요한 도구입니다. 

 


📐 분산과 표준편차의 개념

 

분산은 각 데이터가 평균에서 얼마나 떨어져 있는지를 제곱해서 평균 낸 값입니다. 그리고 표준편차는 분산에 루트를 씌운 값으로, 실제 데이터 단위로 해석할 수 있어서 더 직관적이죠.

 

이 두 지표를 통해 데이터를 단순히 ‘중심’으로만 이해하는 게 아니라, 데이터가 어느 정도로 퍼져 있는지도 함께 파악할 수 있었어요.

 

특히, 분산이 클수록 데이터의 값들이 넓게 퍼져 있다는 뜻이고, 표준편차가 작을수록 값들이 평균 근처에 모여 있다는 의미라는 점입니다.

 

📊 데이터 분산을 시각적으로 보는 방법: Boxplot

데이터의 분포와 이상치를 직관적으로 보기에는 Boxplot(상자 수염 차트)이 정말 유용했어요. 아래 차트를 통해 각 지역의 데이터 분포와 퍼짐, 이상치까지 한눈에 확인할 수 있었습니다.

 

파이썬으로 그린 상자 수염 차트(Boxplot)
파이썬으로 그린 상자 수염 차트(Boxplot)

 

Boxplot은 사분위수를 기준으로 데이터를 네 구간으로 나누고, 그 중앙 50% 범위인 IQR(Interquartile Range)을 강조해서 보여줍니다. 이 IQR을 활용하면 이상치도 쉽게 탐지할 수 있어서 분석에 꼭 필요한 도구라는 걸 알게 되었어요.

 


🔍 고급 분산 지표들

 

또한, 단순한 표준편차를 넘어 다음과 같은 지표도 함께 배웠습니다:

구분 설명
사분위 범위(IQR) 데이터의 중간 50% 범위를 나타내며, 이상치 탐지에 적합
변동계수(CV) 표준편차를 평균으로 나눈 값으로, 서로 다른 단위를 비교할 때 유용
왜도(Skewness) 데이터가 한쪽으로 치우쳐 있는 정도
첨도(Kurtosis) 데이터 분포의 뾰족함을 나타냄

 

먼저, 사분위 범위(Interquartile Range, IQR)는 데이터를 네 구간으로 나눴을 때, 중간 50%가 분포하는 범위를 의미합니다. 쉽게 말해, 일반적인 데이터들이 어디쯤 몰려 있는지를 보여주는 거죠. IQR은 이상치탐지할 때 자주 활용되는데, Boxplot(상자 수염 차트)으로 시각화하면 IQR 밖에 있는 값들이 바로 이상치 후보입니다.

 

변동계수(CV)는 표준편차를 평균으로 나눈 값을 의미하는데, 이 지표의 장점은 서로 다른 단위를 가진 데이터를 비교할 수 있다는 점입니다. 예를 들어, 매출(만원)과 방문자 수(명)처럼 단위가 다르면 단순한 표준편차만으로는 비교하기가 어렵지만, 이때 변동계수를 활용하면 상대적 변동성을 동일한 기준에서 비교할 수 있어요.

 

왜도(Skewness)는 데이터가 한쪽으로 치우쳐 있는 정도를 보여줘요. 예를 들어, 대부분의 값이 왼쪽에 몰려 있고 오른쪽으로 긴 꼬리가 있다면, '오른쪽으로 치우쳤다(양의 왜도)'고 표현합니다. 반대의 경우에는 음의 왜도라고 표현하고요. 이렇게 왜도를 통해 데이터 분포의 비대칭성을 파악할 수 있습니다.

 

마지막으로 첨도(Kurtosis)는 분포가 얼마나 뾰족한지를 나타내요. 첨도가 높으면 데이터가 평균 근처에 몰려 있고, 아주 극단적인 값도 함께 존재할 가능성이 크다는 의미입니다. 반면 첨도가낮은 분포는 조금 더 평평하게 퍼져 있어서, 예측이 까다롭지 않다는 특징이 있습니다.

 

이러한 고급 분산 지표들을 함께 살펴보면, 단순히 데이터가 얼마나 흩어져 있는지를 알 수 있을 뿐만 아니라, 어떤 방향으로 치우쳐 있는지, 얼마나 집중되어 있는지까지 포괄적으로 이해할 수 있게 됩니다. 이런 지표들이야말로 통계가 단순한 계산을 넘어서 데이터의 특성을 파악하는 중요한 도구라는 걸 느끼게 되는 순간이에요.

 

 


 

 🎲 기술통계: 샘플링 방법 및 분포 

전체 데이터를 다 볼 수 없는 상황, 현실에서는 자주 발생하죠. 그래서 통계에서는 ‘모집단 전체’를 대신해 ‘일부 표본’을 뽑아 분석하는 기술통계가 매우 중요한 역할을 하게 됩니다.

 


🎯 모집단과 표본의 관계

 

기술통계: 모집단과 표본, 샘플링

기술통계를 이해하려면 먼저 모집단과 표본이라는 두 가지 개념을 알아야 합니다.

 

모집단은 우리가 분석하고자 하는 전체 집합을 의미하는데, 예를 들면 서울시 전체 인구처럼 분석 대상의 전체를 말해요.

 

표본은 그 모집단에서 선택된 일부 데이터를 의미하는데, 모든 사람을 다 조사하기는 어려우기 때문에 일부만 뽑아서 대표로 분석하는 거죠.

 

실제로 모든 데이터를 분석할 수 없는 경우가 많기 때문에, 이처럼 대표성 있는 표본을 뽑아 분석하는 과정, 즉 샘플링(sampling)이 통계의 출발점이 됩니다. 따라서, 통계에서는 표본이 모집단을 얼마나 잘 대표하느냐가 분석의 신뢰도를 결정짓는 핵심이에요.

 

 


🔄 다양한 샘플링 방법

 

데이터를 대표할 수 있는 표본을 뽑기 위해서는 상황에 따른 다양한 샘플링 방법을 활용할 수 있어요.

 

샘플링 방법 설명
단순 샘플링 모집단 전체에서 무작위로 표본을 선택하는 방식
층화 샘플링 모집단을 여러 층으로 나눈 뒤, 각 층에서 표본을 추출하는 방식
계통 샘플링 일정한 간격으로 표본을 선택하는 방식
군집 샘플링 모집단을 여러 집단으로 나눈 뒤, 일부 집단만 선택해 전체로 간주하는 방식

 

단순 샘플링은 말 그대로 아무 기준 없이 무작위로 표본을 뽑는 방식이에요. 가장 기본적인 방법이지만, 표본이 모집단을 잘 대표하지 못할 수도 있습니다. 층화 샘플링은 예를 들어 연령대나 지역처럼 뚜렷한 구분이 있을 때 유용해요. 각 층에서 골고루 표본을 뽑기 때문에 대표성이 높아지죠.


계통 샘플링은 모집단에 일련 번호가 있을 때 특히 유용합니다. 예를 들어 전화번호부처럼 번호가 매겨진 목록에서 일정 간격으로 추출하는 식이에요. 군집 샘플링은 전체를 다 보긴 어려운 상황에서 일부 그룹(예: 학교, 구역 등)을 선택해 대표로 분석하는 방식으로, 현실에서 자주 활용되는 실용적인 기법이에요.

 

이처럼 데이터의 특성이나 조사 목적에 따라 적절한 샘플링 방식을 선택하는 것이 중요합니다.

 


📊 정규분포와 중심극한정리

 

샘플링을 이해할 때 절대 빠질 수 없는 개념이 '정규분포'와 '중심극한정리' 바로 이 두 가지입니다.

 

정규분포는 데이터가 평균을 중심으로 대칭적으로 분포하는 종 모양의 곡선을 의미합니다. 키나 시험 점수처럼 자연현상에서 자주 나타나는 분포예요. 또한, 중심극한정리는 표본의 크기가 충분히 크면, 그 평균이 정규분포를 따른다는 원리입니다. 다시 말해서, 모집단이 어떤 모양이든 간에 표본 평균은 점점 정규분포처럼 된다는 뜻이에요.

 

이 원리를 알면, 왜 샘플 크기를 늘리는 게 중요한지 자연스럽게 이해할 수 있습니다. 

 

결국, 기술통계를 통해 데이터를 분석할 때는 모집단과 표본의 관계를 정확히 파악하고, 상황에 맞는 적절한 샘플링 방법을 선택하는 것이 핵심이에요. 정규분포와 중심극한정리를 이해하면 표본 크기가 분석 결과의 신뢰도에 어떤 영향을 미치는지 알 수 있고, 이를 바탕으로 통계적 추론의 기본 원리도 자연스럽게 이해할 수 있게 되는거죠. 이러한 기초가 탄탄해야 나중에 AI 모델을 만들 때도 데이터의 품질과 대표성을 제대로 평가할 수 있습니다.

 

 


 

 🧩 가설 검정 및 통계적 의사결정 

 

데이터로 의사결정을 내릴 때 가장 중요한 것은 객관적이고 신뢰할 수 있는 근거를 제시하는 것입니다. 그래서 통계를 통해 의사결정을 해야하는데, 그 중심에는 '가설 검정'이 있습니다. 즉, 가설 검정은 바로 이런 과학적 의사결정의 핵심 도구라는거죠.

 


🔬 가설 검정의 기본 개념

 

가설 검정과 통계적 유의성
가설 검정과 통계적 유의성

 

가설 검정은 통계 분석에서 핵심적인 과정으로, 데이터를 통해 두 가설 중 어느 것이 맞는지를 검증하는 방법입니다:

 

- (귀무가설) "변화가 없다, 차이가 없다"는 내용으로, 검정하고자 하는 기본 가설

- (대립가설) 귀무가설의 반대 개념, "뭔가 변화가 있다!"

 

가설 검정에서 중요한 역할을 하는 것은 P값입니다. P값이 낮으면 귀무가설을 기각할 수 있어요. 즉, 우리가 주목하는 현상이 '우연'이 아니라는 뜻입니다.

 

 

 


⚖️ 검정 방법과 오류 유형

 

또한, 검정 방법에는 단측검정과 양측검정이 있습니다. 단측검정은 한 방향으로만 차이를 검정하는 방법이고, 양측검정은 두 방향 모두를 고려하여 검정하는 방식이에요.

 

검정 과정에서 발생할 수 있는 오류도 중요합니다. 1종 오류는 귀무가설이 참인데도 불구하고 이를 기각하는 오류고, 2종 오류는 귀무가설이 거짓임에도 기각하지 않는 오류를 의미합니다.

 

이러한 오류를 최소화하면서 정확한 결론을 도출하는 것이 통계적 검정의 핵심입니다.

 

 


🧮 다양한 통계 검정 방법들

 

또한, 실제 분석에서 활용할 수 있는 다양한 통계 검정 방법을 배웠는데요.

구분 설명
t 검정 평균 차이 분석
카이제곱검정 범주형 데이터 간 차이 분석
ANOVA(분산분석) 3개 이상 그룹의 평균 비교

 

t검정은 두 그룹 간 평균 차이를 분석하는 데 사용되고, 카이제곱검정은 범주형 데이터의 차이를 분석할 때 활용됩니다. 그리고 분산분석(ANOVA)은 세 개 이상의 그룹 간 평균 차이를 검정하는 방법이에요.

 

이러한 검정 방법들을 통해 다양한 데이터 상황에서 통계적 유의성을 평가하고, 실질적인 결론을 도출할 수 있습니다. 다시 말해서, 이 검정들을 통해 데이터가 말해주는 '진짜 메시지'를 들을 수 있게 되는거죠.

 

가설 검정의 원리를 학습하면서, 데이터를 기반으로 신뢰성 있는 결론을 내리는 과정이 매우 중요하다는 점을 느꼈습니다. 특히 Data-Centric AI 접근법에서도 이런 통계적 사고가 핵심이 된다는 것을 깨달았어요.

 

Data-Centric AI란? ─ Upstage AI Lab 22주차

데이터 전략에서 AI 개발로 – Data-Centric AI를 배우며오랜 기간 정부와 공공기관에서 전략 기획 컨설턴트로 일하면서 데이터를 다루는 일이 얼마나 중요한지 잘 알고 있었어요. 하지만 개발자의

yes-it-spot.tistory.com

 

 


 

 📈 선형 회귀 분석: 관계 예측 및 이해 

 

AI와 머신러닝의 기초가 되는 선형 회귀 분석을 배우면서, 단순한 공식이 아닌 데이터 간의 관계를 이해하는 강력한 도구라는 것을 깨달았습니다.


🎯 회귀 분석의 기본 개념

Python 통계분석 OLS 회귀모델 결과 - 결정계수와 회귀계수 유의성 검정 출력


선형 회귀 분석
은 데이터 사이의 관계를 설명하고 예측하는 데 유용한 통계 기법입니다. 이 기법을 통해 독립변수종속변수 간의 관계를 수치적으로 표현하고, 그 관계를 바탕으로 미래의 결과를 예측할 수 있었습니다.

 

 

  • 단순 선형 회귀: 하나의 독립변수와 하나의 종속변수 사이의 관계를 직선으로 표현
  • 다중 선형 회귀: 여러 독립변수를 동시에 고려하여 더 복잡한 관계를 설명하는 방식

 

 

다중 선형 회귀를 통해 다차원적인 데이터 분석이 가능하다는 점, 실제 비즈니스 상황에서 마주하는 복잡한 문제들을 해결할 수 있는 기초를 다지게 되었습니다. 

 

 


📊 회귀 모델의 해석과 평가

 

회귀 분석에서 중요한 지표인 회귀계수와 결정계수를 배웠는데, 회귀계수는 독립변수가 종속변수에 미치는 영향을 수치로 표현하며, 이를 통해 각 변수의 영향력을 직관적으로 파악할 수 있었습니다.

 

또한, 결정계수(R²)는 회귀 모델이 데이터를 얼마나 잘 설명하는지를 보여주는 지표로, 모델의 설명력을 평가하는 데 도움을 줍니다.  즉, 이 숫자들을 통해 모델의 신뢰도를 평가하고 개선할 수 있어요.

 

 


⚙️ 선형 회귀의 5가지 핵심 가정

 

 

선형 회귀 분석에서 신뢰성 있는 결과를 얻기 위해 반드시 확인해야 하는 다섯 가지 가정을 배웠습니다:

 

  1. 오차(Error)와 잔차(Residual)의 적절성
  2. 선형성(Linearity): 변수 간의 선형 관계
  3. 잔차 정규성(Normality): 오차가 정규분포를 따르는지
  4. 독립성(Independence): 관측값들이 서로 독립적인지
  5. 등분산성(Homoskedasticity): 오차의 분산이 일정한지
  6. 다중 공선성(Multicollinearity): 독립변수들 간의 높은 상관관계 문제

 

이 가정들이 충족되어야만 회귀 분석이 신뢰 있는 결과라는 것을 알게 되었습니다.

 

결국, 선형 회귀 분석은 단순히 데이터를 분석하는 것이 아니라, 변수 간의 관계를 이해하고 예측할 수 있는 강력한 도구임을 배우게 되었어요. 이를 통해 데이터를 더 깊이 분석하고, 신뢰성 있는 결과를 도출하는 데 중요한 기법이라는 점을 깨달았습니다.

 

 


 

 💡 핵심 요약 및 시사점 

 

이번 통계학 학습을 통해 데이터 분석의 기초를 이루는 다양한 개념과 방법을 체계적으로 배울 수 있었습니다. 단순한 공식 암기가 아닌, 데이터를 올바르게 해석하고 활용하는 통계적 사고력을 기를 수 있었어요.

 

 

기초 통계 마스터, 데이터 분산과 가변성 분석, 기술통계와 샘플링 전략, 가설 검정 및 통계적 의사결정, 선형 회귀 분석 실무 적용의 중요성
주요 학습 요약 정리

 

이번 학습의 주요 성과를 요약하면 다음과 같습니다:

 

요약 정리
📊 기초 통계 마스터 📈 데이터 분산과
가변성 분석
🎲 기술통계와
샘플링 전략
🧩 가설 검정 및
통계적 의사결정
📈 선형 회귀 분석
실무 적용
  • 대푯값(산술평균, 기하평균 등)을 통해 데이터의 중심 경향을 파악하는 방법
  • 평균의 함정을 피하고 상황에 맞는 적절한 대푯값 선택 능력
  • 분산, 표준편차, IQR 등을 활용해 데이터의 퍼짐과 변동성을 분석하는 방법
  • 이상치 탐지와 데이터 분포 특성을 파악하는 기술
  • 모집단과 표본의 관계를 이해하고, 다양한 샘플링 방법 활용

  • 정규분포와 중심극한정리 등 기술통계의 핵심 개념 습득
  • 가설 검정, P값, 오류(1종, 2종) 개념을 통한 과학적 의사결정

  • t검정, 카이제곱검정, ANOVA를 활용한 다양한 통계적 분석
  • 단순 및 다중 선형 회귀 분석을 통한 변수 간 관계 예측과 설명

  • 회귀 모델의 5가지 가정 검증을 통한 신뢰성 있는 분석 

 

 

🚀 AI 분야에서의 활용 전망

 

이러한 학습을 통해 단순한 기술 습득을 넘어 데이터 기반의 사고방식을 얻게 되었고, 앞으로 통계적 사고력을 바탕으로, 더 복잡한 AI 문제를 해결할 수 있을 것 같아요! 

 

특히 프로그래밍과 결합하여 실제 데이터 분석 문제에 적용함으로써 더 심화된 통계적 분석 능력을 발전시킬 수 있을 것으로 기대됩니다. 머신러닝 모델을 구축할 때도 이런 통계적 기초가 탄탄하면 더 신뢰할 수 있는 모델을 만들 수 있겠다는 확신이 들었어요.

 

 


 

 🔮 4주차 학습 계획 및 기대 : 컴퓨터 공학 개론 

 

Upstage AI Lab 4주차 과정에서는 컴퓨터 공학의 기초 개념을 실시간 강의와 온라인 강의로 병행하여 학습할 예정입니다.

 

AI와 데이터 과학 분야에서는 통계뿐만 아니라 프로그래밍과 컴퓨터 공학적 지식이 필수적이므로, 이러한 지식을 통해 더 복잡한 문제를 해결할 수 있는 기술을 습득하는 것이 저의 개인적인 목표입니다.

 

특히 4주차에는 데이터 처리와 모델링에 필요한 컴퓨팅 능력을 키우는데 집중해 볼 계획입니다. 이를 통해 AI와 데이터 과학에서 직면할 수 있는 복잡한 문제들을 해결하는 데 필요한 기초를 다지며, 향후 더 심화된 학습으로 나아갈 준비를 해나갈 것입니다.

 

통계학 기초가 탄탄해진 만큼, 컴퓨터 공학과의 융합을 통해 더 실무적이고 강력한 AI 개발 역량을 기를 수 있을 것이라 기대하고 있어요! 🚀

 

AI 데이터 과학 미래 비전 이미지 - 빅데이터와 컴퓨팅 기술의 융합
컴퓨터 공학 데이터 처리 개념 시각화 - 디지털 데이터 터널과 정보 흐름

 

 


🔗 관련 글 보기

다음 단계 학습 여정:

협업 과정 및 팀 프로젝트 결과물:

댓글