AI인사이트 로고AI인사이트
챕터 2

ChatGPT·Claude로 데이터 분석하기 — CSV·Excel 분석 프롬프트

CSV와 Excel 파일을 AI에 업로드하여 데이터 정제, 기술통계, 상관관계 분석, 그룹별 비교, 시계열 분석을 수행하는 실전 프롬프트를 다룹니다.

CSV·Excel 파일, AI에게 맡기면 5분이면 됩니다

지난 챕터에서 AI 데이터 분석 도구를 비교하고 데이터 보안 원칙을 배웠습니다. 이번 챕터에서는 본격적으로 실전에 들어갑니다. 가장 흔한 데이터 형식인 CSV와 Excel 파일을 AI에 업로드하고, 체계적으로 분석하는 프롬프트를 하나씩 익혀보겠습니다.

이 챕터를 마치면 다음을 할 수 있게 됩니다:

  • CSV/Excel 파일을 AI에 올려 자동 분석을 수행하는 방법
  • 결측치와 이상치를 찾아 정제하는 프롬프트 작성법
  • 기술통계, 상관관계, 그룹별 비교 분석을 요청하는 방법
  • 시계열 데이터에서 트렌드와 패턴을 발견하는 프롬프트

중요한 것은, 이 모든 과정에서 단 한 줄의 코드도 직접 작성할 필요가 없다는 점입니다. AI가 코드를 작성하고 실행하며, 여러분은 "무엇을 분석할 것인가"에만 집중하면 됩니다.


ChatGPT 데이터 분석 — 업로드 전 준비 체크리스트

파일 형식 확인

AI 도구에 업로드할 수 있는 파일 형식을 먼저 확인해야 합니다.

파일 형식 ChatGPT Claude Gemini
CSV (.csv) ✅ 직접 분석 ✅ 직접 분석 ✅ 직접 분석
Excel (.xlsx) ✅ 직접 분석 ✅ 직접 분석 ✅ Google Sheets 변환
TSV (.tsv)
JSON

업로드 전 체크리스트

  1. 개인정보 마스킹 완료 (챕터 1 참조)
  2. 파일 인코딩 확인: 한글이 포함된 CSV는 UTF-8 인코딩인지 확인합니다
  3. 헤더 행 확인: 첫 번째 행이 컬럼명(헤더)인지 확인합니다
  4. 파일 크기 확인: 너무 큰 파일은 샘플링이 필요합니다

데이터 파일 사전 점검 프롬프트

아래 CSV 데이터의 처음 20행을 보여드립니다. 분석을 시작하기 전에 다음을 점검해주세요:

  1. 각 컬럼의 데이터 타입 (숫자/문자/날짜/범주형)
  2. 컬럼명이 분석하기에 적절한지 (한글/영문 혼재, 특수문자 포함 여부)
  3. 명백한 데이터 품질 이슈 (빈 값, 이상한 형식, 인코딩 깨짐)
  4. 분석 전 추천되는 전처리 작업 목록

[CSV 데이터의 처음 20행을 붙여넣으세요]


1단계: AI 데이터 분석 탐색 — "이 데이터는 무엇을 담고 있는가?"

데이터 분석의 첫 단계는 항상 탐색입니다. 데이터의 전체 구조를 파악하고, 어떤 정보가 담겨 있는지, 데이터의 품질은 어떤지를 먼저 확인해야 합니다.

전체 구조 파악 프롬프트

데이터 전체 구조 분석 프롬프트

업로드한 데이터 파일을 분석해주세요.

다음 정보를 표 형식으로 정리해주세요:

  1. 기본 정보: 총 행 수, 총 열 수, 파일 크기
  2. 컬럼 정보: 각 컬럼의 이름, 데이터 타입, 고유값 개수, 결측치 수와 비율
  3. 수치형 컬럼 요약: 평균, 중위수, 최솟값, 최댓값, 표준편차
  4. 범주형 컬럼 요약: 각 범주의 빈도수와 비율 (상위 5개)
  5. 날짜 컬럼: 시작일, 종료일, 기간
  6. 초기 관찰: 데이터에서 바로 눈에 띄는 특이점이나 패턴

데이터 미리보기 프롬프트

대용량 데이터의 경우 전체를 한 번에 볼 수 없으므로, 전략적으로 미리보기를 요청합니다.

전략적 데이터 미리보기 프롬프트

업로드한 데이터에서 다음을 보여주세요:

  1. 처음 5행과 마지막 5행
  2. 무작위로 선택한 10행
  3. 각 수치 컬럼에서 최댓값과 최솟값을 가진 행
  4. 결측치가 포함된 행 중 5개

이를 통해 데이터의 전체적인 모습과 경계 사례를 파악하고 싶습니다.


2단계: AI 데이터 정제 — "분석할 수 있는 상태로 만들기"

실무 데이터는 거의 항상 "더러운" 상태입니다. 빈 값, 오타, 중복, 이상한 형식 등이 섞여 있습니다. 분석 전에 이런 문제를 해결하지 않으면, 분석 결과를 신뢰할 수 없습니다.

결측치(빈 값) 처리

결측치는 데이터에서 가장 흔한 품질 문제입니다. 결측치를 어떻게 처리하느냐에 따라 분석 결과가 달라질 수 있으므로 신중하게 접근해야 합니다.

결측치 진단 및 처리 프롬프트

업로드한 데이터의 결측치를 분석하고 처리해주세요.

1단계 - 진단:

  • 각 컬럼별 결측치 수와 비율을 표로 정리
  • 결측치가 무작위로 발생했는지, 특정 패턴이 있는지 분석
  • 결측치가 10% 이상인 컬럼 식별

2단계 - 처리 방안 제시:

  • 각 컬럼의 데이터 특성에 맞는 처리 방법 추천
    • 수치형: 평균/중위수 대체, 보간법, 또는 삭제
    • 범주형: 최빈값 대체, '기타' 범주 생성, 또는 삭제
  • 각 방법의 장단점 설명
  • 추천 방법과 그 이유

3단계 - 실행:

  • 추천 방법으로 결측치를 처리한 데이터를 생성
  • 처리 전후 기술통계 비교

이상치(극단값) 탐지

이상치는 다른 데이터와 크게 동떨어진 값으로, 데이터 입력 오류일 수도 있고 실제로 특이한 사건을 반영하는 것일 수도 있습니다.

이상치 탐지 및 처리 프롬프트

업로드한 데이터에서 이상치를 찾아주세요.

분석 방법:

  1. IQR(사분위 범위) 방법: Q1 - 1.5×IQR 미만 또는 Q3 + 1.5×IQR 초과하는 값
  2. Z-score 방법: 평균에서 표준편차 3배 이상 벗어나는 값

각 이상치에 대해:

  • 어떤 컬럼에서 발견되었는지
  • 해당 행의 전체 데이터
  • 데이터 입력 오류로 추정되는지, 실제 극단값인지 판단
  • 처리 추천: 제거 / 대체 / 유지 (각각의 근거 포함)

이상치를 제거한 경우와 유지한 경우의 기술통계를 비교해주세요.

중복 데이터 및 형식 통일

데이터 정제 종합 프롬프트

업로드한 데이터를 정제해주세요.

점검 및 처리 항목:

  1. 중복 행: 완전히 동일한 행 찾기 및 제거
  2. 날짜 형식 통일: 모든 날짜를 YYYY-MM-DD 형식으로 변환
  3. 텍스트 정리: 앞뒤 공백 제거, 대소문자 통일
  4. 범주 통일: 같은 의미의 다른 표기 통합 (예: '서울'과 '서울시')
  5. 숫자 형식: 쉼표, 원(₩) 기호 제거 후 숫자로 변환
  6. 데이터 타입 변환: 문자열로 저장된 숫자를 숫자 타입으로 변환

정제 전후 변경 사항을 요약해주세요.


3단계: ChatGPT 데이터 분석 — 기술통계로 "숫자가 말하는 이야기" 읽기

데이터가 정제되었다면, 이제 본격적인 분석을 시작합니다. 가장 기본이 되는 기술통계 분석부터 진행합니다.

종합 기술통계 프롬프트

기술통계 종합 분석 프롬프트

정제된 데이터에 대해 종합 기술통계 분석을 수행해주세요.

  1. 중심 경향:
    • 각 수치 컬럼의 평균, 중위수, 최빈값
    • 평균과 중위수의 차이가 큰 컬럼 식별 (분포 편향 가능성)
  2. 분산:
    • 표준편차, 분산, 범위(최대-최소)
    • 변동계수(CV = 표준편차/평균): 상대적 변동성 비교
  3. 분포 형태:
    • 왜도(Skewness): 분포의 비대칭 정도
    • 첨도(Kurtosis): 분포의 뾰족한 정도
  4. 백분위수:
    • 25%, 50%, 75%, 90%, 95%, 99% 백분위
  5. 비즈니스 해석:
    • 각 통계량이 비즈니스 관점에서 의미하는 바를 쉬운 말로 설명
    • "이 데이터에서 가장 주목할 점 3가지"를 별도로 정리

그룹별 비교 분석

데이터를 특정 기준으로 나누어 비교하면 더 깊은 인사이트를 얻을 수 있습니다.

그룹별 비교 분석 프롬프트

데이터를 [그룹 기준 — 예: 지역, 카테고리, 채널]별로 나누어 비교 분석해주세요.

각 그룹별로:

  1. 건수, 합계, 평균, 중위수
  2. 그룹 간 차이가 통계적으로 유의미한지 여부
  3. 가장 높은 그룹과 낮은 그룹의 차이 원인 추론
  4. 그룹별 추세 비교 (시간 데이터가 있는 경우)

결과를 표와 핵심 발견 요약으로 정리해주세요.

조건부 분석

특정 조건에 해당하는 데이터만 추출하여 분석하는 방법입니다.

조건부 데이터 분석 프롬프트

다음 조건에 해당하는 데이터만 추출하여 분석해주세요:

조건: [예: 매출 100만 원 이상 AND 지역이 서울]

분석 내용:

  1. 조건에 해당하는 데이터 건수와 전체 대비 비율
  2. 해당 데이터의 기술통계
  3. 나머지 데이터와의 차이점
  4. 이 조건이 비즈니스적으로 의미하는 바

4단계: 상관관계 분석 — "변수 간의 관계 발견하기"

상관관계 분석은 두 변수가 어떤 관계를 가지고 있는지 파악하는 방법입니다. 예를 들어 "광고비를 늘리면 매출이 올라가는가?", "고객 만족도가 높으면 재구매율도 높은가?" 같은 질문에 답할 수 있습니다.

상관관계 분석 프롬프트

데이터의 모든 수치형 변수 간 상관관계를 분석해주세요.

  1. 상관계수 매트릭스: 모든 수치 컬럼 쌍의 피어슨 상관계수를 표로 정리
  2. 강한 상관관계: 상관계수 절대값이 0.7 이상인 변수 쌍 목록
  3. 약한 상관관계: 상관계수 절대값이 0.3 미만인 변수 쌍 (예상 외 결과 포함)
  4. 해석: 각 강한 상관관계에 대해
    • 양의 상관 vs 음의 상관 설명
    • 이것이 인과관계를 의미하는지 여부와 그 이유
    • 비즈니스 의사결정에 활용할 수 있는 방법
  5. 주의사항: 상관관계를 인과관계로 오해하기 쉬운 사례 2가지

특정 변수 간 관계 심화 분석 프롬프트

[변수 A]와 [변수 B]의 관계를 심층 분석해주세요.

  1. 상관계수와 p-value
  2. 산점도 기반 시각적 관계 설명
  3. [변수 A]의 값을 구간별로 나누었을 때 [변수 B]의 평균 변화
  4. 이 관계에 영향을 줄 수 있는 제3의 변수(교란 변수) 가능성
  5. 이 관계를 비즈니스에 활용할 수 있는 구체적인 방안

5단계: 시계열 분석 — "시간의 흐름 속 패턴 찾기"

시계열 분석은 시간에 따른 데이터의 변화를 분석하는 방법입니다. 매출 추이, 방문자 수 변화, 계절별 패턴 등을 파악할 때 사용합니다.

기본 시계열 분석

시계열 트렌드 분석 프롬프트

데이터의 [날짜 컬럼]과 [분석 대상 컬럼 — 예: 매출]을 기준으로 시계열 분석을 수행해주세요.

  1. 트렌드 분석:
    • 전체 기간의 상승/하강/정체 추세
    • 추세선(트렌드라인) 기울기와 의미
    • 추세가 변화한 시점(변곡점)이 있다면 식별
  2. 계절성 분석:
    • 월별/주별/요일별 패턴이 있는지 확인
    • 특정 시기에 반복적으로 상승/하강하는 패턴
  3. 이동 평균:
    • 7일/30일/90일 이동 평균 계산
    • 단기 변동과 장기 추세 분리
  4. 전기 대비 변화율:
    • 전월 대비(MoM), 전년 동기 대비(YoY) 변화율
    • 가장 큰 상승/하락이 발생한 시점과 가능한 원인

기간 비교 분석

기간 비교 분석 프롬프트

다음 두 기간을 비교 분석해주세요:

  • 기간 A: [시작일 ~ 종료일]
  • 기간 B: [시작일 ~ 종료일]

비교 항목:

  1. 각 기간의 합계, 평균, 최대, 최소
  2. 증감 비율과 절대값 차이
  3. 기간 내 일별/주별 패턴 차이
  4. 가장 큰 차이가 나는 세부 항목(카테고리, 채널 등)
  5. 차이의 원인으로 추정되는 요인 3가지

예측 분석

단순 예측 분석 프롬프트

지금까지의 데이터 패턴을 바탕으로 향후 [기간 — 예: 3개월]의 [분석 대상 — 예: 매출]을 예측해주세요.

예측 조건:

  1. 과거 데이터의 트렌드와 계절성을 반영
  2. 낙관적/기본/보수적 시나리오 3가지 제시
  3. 각 시나리오의 전제 조건 명시
  4. 예측의 한계와 주의사항 설명
  5. 예측 정확도를 높이기 위해 추가로 필요한 데이터

주의: 이 예측은 참고용이며, 실제 의사결정에는 추가 검증이 필요합니다.


AI 데이터 분석 실전 시나리오 — 처음부터 끝까지

지금까지 배운 단계를 하나의 워크플로우로 연결하는 종합 프롬프트입니다.

원스톱 데이터 분석 프롬프트

업로드한 데이터를 처음부터 끝까지 체계적으로 분석해주세요.

Phase 1 — 탐색 (데이터 이해):

  • 데이터 구조, 컬럼 설명, 데이터 타입 파악
  • 데이터 품질 진단 (결측치, 이상치, 중복)

Phase 2 — 정제 (분석 준비):

  • 결측치 처리 (방법과 이유 설명)
  • 이상치 처리 (판단 근거 포함)
  • 데이터 타입 및 형식 통일

Phase 3 — 분석 (인사이트 도출):

  • 기술통계 요약
  • 주요 변수 간 상관관계
  • 그룹별 비교 (가장 의미 있는 기준으로)
  • 시계열 추세 (날짜 데이터가 있는 경우)

Phase 4 — 해석 (비즈니스 적용):

  • 핵심 발견 5가지 (중요도 순)
  • 각 발견에 대한 액션 아이템
  • 추가 분석이 필요한 질문 3가지

각 Phase가 끝날 때마다 중간 결과를 요약해주세요.


AI 대용량 데이터 분석 처리 전략

파일이 너무 커서 AI에 한 번에 업로드할 수 없는 경우의 대처법입니다.

샘플링 전략

대용량 데이터 샘플링 프롬프트

전체 데이터가 [행 수]행으로 AI에 한 번에 분석하기 어렵습니다. 효과적인 샘플링 전략을 제안해주세요.

데이터 특성:

  • 총 행 수: [예: 100만 행]
  • 주요 컬럼: [예: 날짜, 지역, 카테고리, 매출, 고객ID]
  • 분석 목적: [예: 지역별 매출 트렌드 파악]

다음을 포함해주세요:

  1. 추천 샘플 크기와 근거
  2. 샘플링 방법 (무작위/층화/체계적)
  3. 샘플이 전체를 대표하는지 검증하는 방법
  4. 샘플링 코드 (Excel 또는 Python)

분할 분석 전략

데이터 분할 분석 프롬프트

대용량 데이터를 여러 번에 나누어 분석하려고 합니다. 분할 전략을 세워주세요.

전체 데이터: [행 수]행, [열 수]열 분석 목적: [목적]

  1. 어떤 기준으로 분할하는 것이 좋은지 (날짜/카테고리/지역)
  2. 각 분할 데이터에서 수행할 동일한 분석 항목
  3. 분할 결과를 종합하는 방법
  4. 분할로 인해 놓칠 수 있는 분석 관점

AI 데이터 분석 결과를 Excel로 내보내기

AI의 분석 결과를 Excel에서 활용할 수 있는 형태로 정리하는 방법입니다.

분석 결과 Excel 변환 프롬프트

지금까지의 분석 결과를 Excel에 바로 붙여넣을 수 있는 형식으로 정리해주세요.

필요한 시트 구성:

  1. 요약 시트: 핵심 KPI와 주요 발견 사항
  2. 기술통계 시트: 모든 수치 컬럼의 통계량 표
  3. 그룹별 분석 시트: 그룹 비교 결과 표
  4. 시계열 시트: 기간별 추이 데이터
  5. 액션 아이템 시트: 분석 기반 추천 액션 목록

각 시트의 데이터를 탭으로 구분된 텍스트(TSV)로 출력해주세요.


ChatGPT 데이터 분석 자주 발생하는 문제와 해결법

"파일을 읽을 수 없습니다" 오류

이 오류는 보통 파일 인코딩 문제입니다. 한글이 포함된 CSV 파일은 UTF-8로 저장해야 합니다.

인코딩 문제 해결 프롬프트

CSV 파일을 업로드했는데 한글이 깨져서 나옵니다. 다음 인코딩으로 시도해서 읽어주세요:

  1. UTF-8
  2. EUC-KR (CP949)
  3. UTF-8 with BOM

정상적으로 읽히는 인코딩을 찾으면 그것으로 진행해주세요.

"데이터가 너무 많아 분석할 수 없습니다"

데이터 축소 분석 프롬프트

업로드한 데이터가 너무 커서 한 번에 분석하기 어렵다면:

  1. 먼저 전체 데이터의 기본 정보(행 수, 열 수, 컬럼명)만 파악해주세요
  2. 무작위 1000행을 샘플링하여 기술통계를 계산해주세요
  3. 샘플 기반 분석 결과와 함께, 전체 데이터 분석을 위한 단계별 접근법을 제안해주세요

분석 결과가 이상할 때

분석 결과 검증 프롬프트

방금 분석한 결과가 상식적으로 이상해 보입니다.

이상한 점: [예: 월 매출 평균이 마이너스로 나옴]

다음을 확인해주세요:

  1. 원본 데이터에 문제가 있는지 (음수값, 데이터 타입 오류)
  2. 분석 과정에서 오류가 있었는지 (잘못된 필터, 계산 실수)
  3. 데이터 정의를 잘못 이해한 것은 아닌지
  4. 수정된 분석 결과

이 챕터 핵심 정리

분석 단계 핵심 프롬프트 체크 포인트
탐색 데이터 구조 + 품질 진단 행/열 수, 컬럼 타입, 결측치 비율 확인
정제 결측치 + 이상치 + 형식 통일 처리 방법의 근거를 함께 요청
기술통계 중심경향 + 분산 + 분포 평균과 중위수 차이 주목
상관관계 상관계수 + 인과 판단 상관≠인과 항상 확인
시계열 트렌드 + 계절성 + 이동평균 변곡점과 원인 추론

이 챕터에서 다룬 분석 기법에 활용할 수 있는 다양한 AI 도구는 AI 도구 디렉토리에서 비교해볼 수 있습니다.

다음 챕터 미리보기

다음 챕터에서는 시각화 프롬프트 마스터 — 차트·그래프·대시보드 요청법을 다룹니다. 분석 결과를 막대 차트, 선 그래프, 파이 차트, 히트맵, 산점도 등 다양한 시각화로 표현하는 프롬프트와 Datawrapper를 활용한 전문 시각화 제작법을 배웁니다. 데이터를 숫자가 아닌 그림으로 이야기하는 방법을 익혀보겠습니다.