AI 일상활용·경험/AI 실전팁(사무)_#6

[AI실전팁 60편] 엑셀 노가다 끝! 엉망진창 데이터 1초 만에 청소하는 'AI 데이터 세탁소'

@태백감자 2026. 1. 7. 12:25
반응형

📝 오늘의 핵심 요약

  • 문제점: 오타, 제각각인 날짜 형식... 지저분한 데이터로는 제대로 된 분석이 불가능합니다.
  • 해결책: AI에게 "데이터 형식을 통일하고 오타를 수정해줘"라고 채팅하듯 요청하세요.
  • 기대효과: 반복되는 전처리 작업을 수 분 내에 신속하게 끝내고 바로 '분석' 단계로 넘어갑니다.

"쓰레기를 넣으면 쓰레기가 나옵니다. 데이터도 세탁이 필요합니다."

지난 Ep 59에서 템플릿 자동화로 문서 찍어내기의 달인이 되었습니다. 그런데 템플릿에 넣을 원본 데이터(Raw Data)가 엉망이라면 어떨까요? 이름에 공백이 있고, 날짜는 '2025.1.1'과 '25/01/01'이 뒤섞여 있다면요?

저도 예전엔 엑셀 시트와 씨름하며 '찾기 및 바꾸기'를 수백 번 반복하느라 정작 분석은 시작도 못 하곤 했습니다. 오늘은 AI라는 '데이터 세탁기'를 이용해 엉망진창 데이터를 칼같이 정리하는 법을 소개합니다.

•••

1. GIGO: 쓰레기를 넣으면 쓰레기가 나옵니다

데이터 분석의 가장 큰 적은 불일치(Inconsistency)입니다. AI든 엑셀 함수든 데이터가 정제되지 않으면 계산 자체가 꼬여버리거든요.

😱 전처리가 안 된 데이터의 비극
- '삼성전자'와 ' 삼성전자 '를 서로 다른 회사로 인식함
- '2025-01-01'과 '1/1'이 섞여 있어 날짜순 정렬이 불가능함
- 숫자에 '원'이나 ','가 섞여 있어 합계 계산 오류 발생

이런 노가다를 직접 하느라 야근하지 마세요. AI에게 "이 표의 형식을 일관되게 정리해줘"라고 한 마디만 하면 전처리의 고단함이 절반으로 줄어듭니다.

2. 실전! AI 데이터 클리닝 기술

데이터를 복사해서 붙여넣거나, 양이 많다면 파일을 직접 업로드하며 다음과 같이 명령해보세요.

[AI 세탁소 프롬프트]
"아래 데이터를 분석하기 좋게 정제해줘."
1. 모든 날짜는 'YYYY-MM-DD' 형식으로 통일해.
2. 이름에 포함된 불필요한 공백을 모두 제거해.
3. 주소 정보에서 '서을특별시' 같은 명백한 오타를 표준어로 수정해줘.
4. 금액 열에서 '원' 표시를 지우고 숫자 형식으로만 출력해.

특히 오타 수정 기능은 AI의 문맥 이해가 빛을 발하는 부분입니다. 단순한 오타 정도는 AI가 효율적으로 식별하여 수정을 제안해 주기 때문에 오타 발생률을 획기적으로 낮출 수 있습니다.

3. 결측치와 중복값 해결하기

데이터가 비어있거나(결측치), 똑같은 내용이 두 번 들어간(중복값) 경우도 AI가 꼼꼼하게 잡아냅니다.

  • 중복 제거: "데이터 중 이름과 전화번호가 중복된 행은 하나만 남겨줘."
  • 빈칸 채우기: "나이 데이터가 비어있는 곳은 전체 평균값으로 채우거나 '확인 불가'로 표시해줘."

이제 분석을 위한 '깨끗한 원단'이 준비되었습니다. 데이터 양이 많을 때는 파일을 직접 업로드해 분석 도구(Advanced Data Analysis 등)를 활용하면 수치 왜곡 없이 더 정확한 결과를 얻을 수 있습니다.

Outro: 데이터의 기본은 청결입니다

실력 있는 요리사가 재료 손질에 가장 많은 공을 들이듯, 유능한 직장인은 분석 전 데이터 전처리에 정성을 들입니다. AI 덕분에 그 정성에 들어가는 시간이 획기적으로 줄어들었을 뿐이죠.

재료가 준비되었으니 이제 본격적인 요리를 시작해볼까요? 다음 시간, Ep 61. 함수 마법사 대신 채팅 마법사 '수식 생성' 편에서는 외우기 힘든 VLOOKUP 대신 말로 엑셀 함수를 짜는 법을 알아보겠습니다.

💡 실천 과제:

1. 지금 당장 가장 지저분한 엑셀 파일을 하나 열어보세요.
2. 데이터 10줄 정도를 복사해 AI에게 "이 데이터를 분석 가능하게 정리해줘"라고 시켜보세요.
3. AI가 고친 부분들을 눈으로 확인하며 데이터 세탁의 손맛을 느껴보세요!

반응형