본문 바로가기
YES - 개발일지

AI를 위한 데이터 분석의 기초 : 통계 ─ Upstage AI Lab 5기 3주차

by YES - IT SPOT 2024. 10. 14.
반응형

데이터 과학, 그 이상을 위한 기초

본 업스테이지 AI Lab 3주차 과정에서는 AI를 위한 기초 수학, 통계로 데이터 분석하는 실시간 강의와 온라인 강의를 진행했다.

 

이번 학습을 통해 데이터 분석의 기초가 되는 다양한 개념과 방법을 배웠다. 이는 단순한 기술 지침이 아니라, 데이터 분석의 기초와 통찰력을 제공하는 중요한 로드맵이었다. 

 

 


1. 기초 통계에 대한 이해 

 

통계를 배우기 시작하면서 가장 먼저 마주한 것은 기초 통계량이었다. 데이터를 이해하는 데 중요한 여러 가지 대푯값, 즉 산술평균, 기하평균, 조화평균 등을 배웠다. 이 값들은 데이터의 중심 경향을 보여주는 역할을 한다.

기초 통계의 개념

 

대푯값은 데이터를 대표하는 값으로, 데이터의 중심 경향을 설명한다. 예를 들어, 산술평균은 모든 데이터의 합을 데이터의 개수로 나눈 값이며, 기하평균은 데이터의 곱의 n제곱근을 취한 값이다.

 

조화평균은 주로 비율 데이터에 사용되며, 데이터의 역수를 평균 낸 뒤 그 값을 다시 뒤집어 계산한다.

 

평균 이외에도 최댓값은 가장 큰 값, 최빈값은 가장 자주 나타나는 값, 중앙값은 데이터를 크기 순서로 배열했을 때 가운데 있는 값이다.

 

 

하지만 모든 데이터가 평균 하나로 설명되지 않으며, 평균의 함정에 빠질 수 있다는 사실도 중요했다. 특히 최댓값이나 최빈값, 그리고 중앙값도 데이터를 이해하는 데 중요한 대푯값 역할을 한다는 점을 배웠다. 단순히 평균에 의존하기보다는, 데이터의 특성에 맞는 적절한 대푯값을 선택하는 것이 중요하다는 깨달음을 얻었다.

 

 


2. 데이터 분산: 가변성에 대한 통찰력

 

먼저 개념을 살펴보자. 데이터의 분산도는 데이터가 얼마나 퍼져 있는지를 나타낸다. 분산은 각 데이터가 평균으로부터 얼마나 떨어져 있는지를 제곱해 평균낸 값이고, 표준편차는 분산의 제곱근이다. 이는 데이터가 평균을 중심으로 얼마나 변동하는지 보여준다. 이를 통해 데이터의 분산도를 활용해 데이터의 퍼짐 정도와 특성을 더 깊이 분석할 수 있게 되었다. 분산과 표준편차는 데이터의 가변성을 수치적으로 표현하는 도구로, 데이터를 한눈에 파악할 수 있게 해준다.

 

파이썬으로 그린 상자 수염 차트(Boxplot)

 

또한, 사분위 범위(Interquartile Range, IQR)는 데이터를 네 부분으로 나눠 중간 50% 범위를 나타내며, 이상치 탐지에 유용하다. 변동계수는 표준편차를 평균으로 나눈 값으로, 서로 다른 단위를 비교할 때 활용된다. 왜도는 데이터 분포의 비대칭성을, 첨도는 분포의 뾰족함을 설명하는 지표이다. 여기서, 특히 '사분위 범위(IQR)'를 사용해 이상치를 탐지하고, 그 이상치가 데이터 분석에 미치는 영향을 고려해야 한다는 점도 중요했다. 왜도와 첨도를 통해 데이터 분포의 형태를 파악할 수 있었고, 이를 바탕으로 데이터 특성을 더 명확하게 이해할 수 있었다. 이렇게 통계를 통해 데이터를 분석할 때, 단순히 중심 경향만 보는 것이 아니라, 데이터의 분산도를 함께 고려하는 것이 얼마나 중요한지 다시금 깨달았다.

 

 


3. 기술통계: 샘플링 방법 및 분포

 

기술통계는 데이터를 요약하고 설명하는 데 중요한 역할을 한다. 데이터를 분석할 때, 모집단과 표본이라는 두 가지 개념을 알아야 한다. 모집단은 우리가 분석하고자 하는 전체 집합을 의미하며, 표본은 그 모집단에서 선택된 작은 부분이다. 모든 데이터를 분석할 수 없는 경우가 많기 때문에, 표본을 뽑아 분석하는 과정, 즉 샘플링이 매우 중요하다.

 

샘플링 방법에는 여러 가지가 있다. 단순 샘플링은 무작위로 표본을 선택하는 방식이다. 층화 샘플링은 모집단을 여러 층으로 나누어 각 층에서 표본을 추출하는 방법이고, 계통 샘플링은 일정한 간격으로 표본을 선택한다. 군집 샘플링은 모집단을 군집으로 나눈 후 일부 군집을 표본으로 추출하는 방식이다. 이러한 다양한 샘플링 방법을 적절하게 이해하고 선택하는 것이 데이터 분석의 기본이라는 점을 배우게 되었다.

 

특히 정규분포와 중심극한정리는 통계학에서 매우 중요한 개념이었다. 정규분포는 데이터가 평균을 중심으로 대칭적으로 분포하는 것을 의미한다. 또한, 중심극한정리는 표본이 커질수록 그 표본 평균이 모집단의 평균에 가까워진다는 원리를 설명한다. 이 원리를 통해, 표본 크기가 클수록 모집단의 특성을 더 정확하게 추정할 수 있음을 알게 되었다.

 

결국, 기술통계를 통해 데이터를 분석할 때는 적절한 샘플링 방법을 선택하고, 표본이 모집단을 얼마나 잘 대표할 수 있는지 이해하는 것이 중요함을 깨닫게 되었다. 이를 통해 통계적 추론의 기본 원리도 자연스럽게 이해하게 되었다.

 

 


4. 가설 검정 및 통계적 유의성

 

가설 검정과 통계적 유의성

가설 검정은 통계 분석에서 핵심적인 과정으로, 데이터를 통해 두 가설 중 어느 것이 맞는지를 검증하는 방법이다. 이 과정에서 먼저 귀무가설대립가설을 설정한다. 귀무가설은 "변화가 없다"는 내용으로, 검정하고자 하는 가설이다. 반면, 대립가설은 귀무가설의 반대 개념이다.

 

가설 검정에서 중요한 역할을 하는 것은 P값이다. P값은 귀무가설이 참일 때, 관측된 데이터보다 더 극단적인 결과가 나올 확률을 의미한다. P값이 낮으면 귀무가설을 기각할 수 있으며, 이를 통해 결과의 통계적 유의성을 판단하게 된다. 또한, 검정 방법에는 단측검정과 양측검정이 있다. 단측검정은 한 방향으로만 차이를 검정하는 방법이고, 양측검정은 두 방향 모두를 고려하여 검정하는 방식이다.

 

검정 과정에서 발생할 수 있는 오류도 배웠다. 1종 오류는 귀무가설이 참인데도 불구하고 이를 기각하는 오류고, 2종 오류는 귀무가설이 거짓임에도 기각하지 않는 오류다. 이러한 오류를 최소화하면서 정확한 결론을 도출하는 것이 통계적 검정의 핵심이다.

 

또한, 다양한 통계 검정 방법을 배우게 되었다. t검정은 두 그룹 간 평균 차이를 분석하는 데 사용되고, 카이제곱검정은 범주형 데이터의 차이를 분석할 때 활용된다. 분산분석(ANOVA)은 세 개 이상의 그룹 간 평균 차이를 검정하는 방법이다. 이러한 검정 방법들을 통해 다양한 데이터 상황에서 통계적 유의성을 평가하고, 실질적인 결론을 도출할 수 있었다.

 

가설 검정의 원리를 학습하면서, 데이터를 기반으로 신뢰성 있는 결론을 내리는 과정이 매우 중요하다는 점을 느꼈다. 이를 통해 통계적 분석의 기초를 다지게 되었다.

 

 


5. 선형 회귀 분석: 관계 예측 및 이해

 


선형 회귀 분석
은 데이터 사이의 관계를 설명하고 예측하는 데 유용한 통계 기법이다. 이 기법을 통해 독립변수종속변수 간의 관계를 수치적으로 표현하고, 그 관계를 바탕으로 미래의 결과를 예측할 수 있었다.

 

먼저, 단순 선형 회귀는 하나의 독립변수와 하나의 종속변수 사이의 관계를 직선으로 나타낸다. 이를 통해 두 변수 간의 관계를 간단하게 설명할 수 있었다. 반면, 다중 선형 회귀는 여러 독립변수를 동시에 고려하여 더 복잡한 관계를 설명하는 방식으로, 다차원적인 데이터 분석이 가능했다.

 

 

회귀계수는 독립변수가 종속변수에 미치는 영향을 수치로 표현하며, 이를 통해 각 변수의 영향력을 직관적으로 파악할 수 있었다. 또한, 결정계수는 회귀 모델이 데이터를 얼마나 잘 설명하는지를 보여주어, 모델의 설명력을 평가하는 데 도움을 주었다.

 

선형 회귀 분석에서 중요한 다섯 가지 가정도 함께 배웠다. 이 가정들은 오차(Error), 잔차(Residual), 선형성(Linearity), 잔차 정규성(Normality), 독립성(Independence), 다중 공선성(Multicollinearity), 등분산성(Homoskedasticity)이다. 이 다섯 가지 가정이 충족되어야만 회귀 분석이 신뢰성 있는 결과를 제공할 수 있음을 알게 되었다.

 

결국, 선형 회귀 분석은 단순히 데이터를 분석하는 것이 아니라, 변수 간의 관계를 이해하고 예측할 수 있는 강력한 도구임을 배우게 되었다. 이를 통해 데이터를 더 깊이 분석하고, 신뢰성 있는 결과를 도출하는 데 중요한 기법이라는 점을 깨달았다.

 

 


 

핵심 요약 및 시사점

 

이번 통계학 학습을 통해 데이터 분석의 기초를 이루는 다양한 개념과 방법을 체계적으로 배울 수 있었다. 먼저, 대푯값과 분산을 통해 데이터를 요약하고, 기술통계를 통해 모집단과 표본의 관계를 파악하는 법을 익혔다. 또한, 가설 검정을 통해 데이터의 통계적 유의성을 평가하고, 이를 바탕으로 의미 있는 결론을 도출하는 방법도 학습했다. 이러한 과정을 통해 데이터에서 유의미한 통찰을 얻고, 이를 실제 상황에 적용할 수 있는 능력을 키웠다.

 

특히, 데이터의 중심 경향과 변동성을 파악하는 기초 통계량에 대한 이해가 중요했다. 이를 바탕으로 적절한 샘플링 방법을 선택하고, 가설 검정을 통해 데이터를 해석하는 과정을 배웠다. 선형 회귀 분석을 통해서는 변수 간의 관계를 설명하고 예측하는 기술을 익혀, 복잡한 데이터 분석에서 유용한 도구를 얻을 수 있었다. 이처럼 이번 학습은 통계적 분석의 기초부터 심화된 내용까지 아우르는 중요한 여정이었다.

 

이번 학습의 주요 성과를 요약하면 다음과 같다:

  1. 기초 통계에 대한 이해: 대푯값(산술평균, 기하평균, 중앙값 등)을 통해 데이터의 중심 경향을 파악하는 방법

  2. 데이터 분산과 가변성: 분산, 표준편차, IQR 등을 활용해 데이터의 퍼짐과 변동성을 분석하는 방법

  3. 기술통계와 샘플링: 모집단과 표본의 관계를 이해하고, 샘플링 방법과 정규분포 등 기술통계의 기본 개념

  4. 가설 검정 및 통계적 유의성 평가: 가설 검정, P값, 오류(1종, 2종), t검정과 카이제곱검정을 통해 데이터를 바탕으로 통계적 결론을 도출하는 법

  5. 선형 회귀 분석: 단순 및 다중 선형 회귀 분석을 통해 변수 간의 관계를 예측하고 설명하는 기술

이러한 학습을 통해, 단순한 기술 습득을 넘어 통계적 분석의 원리와 통찰력을 얻게 되었고, 앞으로 더 복잡한 문제를 해결하는 데 이 지식을 적용할 수 있을 것이다. 특히, 프로그래밍과 결합하여 실제 데이터 분석 문제에 적용함으로써 더 심화된 통계적 분석 능력을 발전시킬 수 있을 것으로 기대된다.

 

 


 

4주차 학습 계획 및 기대 : 컴퓨터 공학 개론

 

본 업스테이지 AI Lap 4주차 과정에서는 컴퓨터 공학의 기초 개념을 실시간 강의와 온라인 강의로 병행하여 학습할 예정이다. AI와 데이터 과학 분야에서는 통계뿐만 아니라 프로그래밍과 컴퓨터 공학적 지식이 필수적이므로, 이러한 지식을 통해 더 복잡한 문제를 해결할 수 있는 기술을 습득하는 것이 나의 개인적인 목표이다.

 

특히, 4주차에는 데이터 처리와 모델링에 필요한 컴퓨팅 능력을 키우는데 집중해 볼 계획이다. 이를 통해 AI와 데이터 과학에서 직면할 수 있는 복잡한 문제들을 해결하는 데 필요한 기초를 다지며, 향후 더 심화된 학습으로 나아갈 준비를 해나갈 것이다.

 

 

반응형
LIST

댓글