상세 컨텐츠

본문 제목

판다스로 데이터 분석 시작하기

AI

by 머니스마터 2025. 7. 9. 14:02

본문

반응형

Python 데이터 분석의 첫걸음


데이터 분석을 시작하려는 분이라면, 가장 먼저 마주치는 라이브러리가 바로 **판다스(Pandas)**입니다.
엑셀처럼 행과 열로 구성된 데이터를 코드로 자유롭게 다룰 수 있는 파이썬의 대표적인 도구죠.

오늘은 Pandas의 대표적인 기초 함수들과 함께, 간단한 인구통계 데이터를 분석해보겠습니다.


1. 판다스(Pandas)란?

  • 엑셀, CSV, 데이터베이스 등 다양한 형태의 데이터를 다룰 수 있게 해주는 파이썬 라이브러리
  • 표 형식 데이터를 DataFrame으로 처리
  • 데이터 분석, 가공, 시각화의 기반이 되는 핵심 도구

2. 기본 함수 맛보기

아래는 Pandas에서 자주 쓰이는 기본 함수들입니다.

EX)

✅ read_csv(): CSV 파일 불러오기

python
 
import pandas as pd df = pd.read_csv('population.csv') # 인구 통계 데이터

✅ head(): 앞부분 미리 보기

python
 
df.head()

보통 5행만 출력되어 데이터의 구조나 컬럼명을 빠르게 확인할 수 있습니다.


✅ describe(): 숫자형 통계 요약

python
 
df.describe()

평균, 표준편차, 최소/최댓값, 분위수 등 요약 통계 제공
수치형 컬럼 분석에 매우 유용합니다.


✅ groupby(): 그룹별 집계

python
복사편집
df.groupby('지역')['인구수'].sum()

지역별로 인구수를 합산해볼 수 있습니다.
여러 기준으로 나눠서 분석할 때 자주 사용됩니다.


✅ pivot_table(): 피벗 테이블 생성

python
 
pd.pivot_table(df, values='인구수', index='연도', columns='지역', aggfunc='sum')

엑셀의 피벗 테이블과 동일한 기능
기준에 따라 값을 요약해 보여주는 데 탁월합니다.


3. 실전 예제: 인구통계 데이터 분석

아래는 population.csv라는 가상의 데이터를 사용한 예시입니다.

csv
 
연도,지역,성별,인구수 2020,서울,남,4700000 2020,서울,여,4800000 2020,부산,남,1600000 ...

📌 1) 전체 인구 수 확인

python
 
df['인구수'].sum()

📌 2) 지역별 인구 합계

python
 
df.groupby('지역')['인구수'].sum().sort_values(ascending=False)

📌 3) 연도별, 지역별 피벗 테이블

python
 
pd.pivot_table(df, values='인구수', index='연도', columns='지역', aggfunc='sum')

4. 마무리 정리

  • read_csv로 데이터를 불러오고, head, describe로 구조를 확인합니다.
  • groupby, pivot_table로 데이터를 요약하면 데이터의 숨겨진 패턴이 보입니다.
  • Pandas는 머신러닝 전처리나 비즈니스 인사이트 도출에 있어 매우 중요한 도구입니다.

다음 글에서는 결측치 처리와 데이터 정제를 다뤄보겠습니다.
궁금한 내용이나 예제 요청은 댓글로 남겨주세요!

반응형

관련글 더보기