AI 일상활용·경험/AI 실전팁(이미지)_#4

[AI실전팁 41편] 엑셀 표, 찍으면 텍스트가 툭? 눈 달린 AI '비전(Vision)'

@태백감자 2025. 12. 17. 17:27
반응형

📝 오늘의 핵심 요약

  • 발견: 지금까지 AI에게 그림을 '그려달라'고만 했습니다. 하지만 최신 AI는 그림을 '보고 해석하는' 비전(Vision) 능력이 탁월합니다.
  • 활용: 이미지로 된 표, 그래프, 손글씨 회의록을 업로드하면 순식간에 텍스트나 엑셀 파일로 변환해 줍니다.
  • 주의: AI도 6과 8을 헷갈릴 때가 있습니다. 변환된 데이터는 반드시 원본과 대조(Cross-check)해야 합니다.

"손가락으로 타이핑하는 시대는 지났습니다. 이제 카메라 렌즈로 입력하세요."

지난 Ep 40까지 우리는 AI에게 텍스트를 주고 이미지를 만들어내는 '생성(Generation)'에 집중했습니다. 그런데 반대도 가능할까요? 이미지를 던져주고 텍스트를 뽑아내는 것 말이죠.

직장인이라면 누구나 겪는 고통이 있습니다. 누군가 엑셀 파일을 안 주고 '표가 찍힌 스크린샷'만 띡 보냈을 때입니다. 데이터를 가공하려면 그 숫자를 일일이 보고 다시 쳐야 하죠. 생각만 해도 야근 각이 섭니다.

하지만 이제 걱정 없습니다. 챗GPT와 제미나이에는 '눈(Vision)'이 달렸거든요. 이것은 단순한 파일 업로드가 아닙니다. 인간처럼 사진 속 내용을 이해하고 분석하는 '멀티모달(Multi-modal)'의 혁명입니다.

•••

원리: 픽셀을 데이터로 읽는 눈

과거의 OCR(문자 인식) 기술은 단순히 글자 모양만 읽었습니다. 하지만 AI 비전 기술은 맥락(Context)을 읽습니다. 뭉개진 글자가 있어도 앞뒤 문맥을 보고 "아, 이건 '매출'이겠구나"라고 추론하여 빈칸을 채웁니다.

우리가 Ep 14에서 긴 텍스트 파일을 업로드했듯이, 이제는 이미지 파일이 곧 '데이터 입력장치'가 되는 셈입니다.

실전 1: 직장인 퇴근 치트키 (이미지 to 엑셀)

이미지로 된 표를 엑셀로 살려내는 과정입니다. 이 기능 하나만 알아도 구독료 본전은 뽑습니다.

Step 1. 이미지 업로드

복구하고 싶은 표가 담긴 이미지나 스크린샷을 채팅창에 올립니다.

Step 2. 포맷 지정 명령

단순히 "텍스트로 줘"라고 하면 줄글로 줍니다. Ep 15에서 배운 서식 지정 기술을 써서 '마크다운 표''CSV' 형식을 요구해야 합니다.

🗣️ 프롬프트:
"이 이미지 속의 표를 분석해줘.
내용을 그대로 추출해서 엑셀에 붙여넣기 좋게 [CSV 코드블록] 형식으로 출력해."
⚠️ 치명적 실수 방지 (Cross-check):
AI는 가끔 숫자 6을 8로, 1을 7로 잘못 읽는 환각(Hallucination) 증세를 보일 수 있습니다. 특히 돈과 관련된 숫자라면 AI를 맹신하지 말고, 반드시 원본과 대조하는 검수 과정을 거쳐야 합니다.

실전 2: 생활 밀착형 분석 (냉장고 & 손글씨)

비전 기능은 업무 외에도 일상에서 강력한 힘을 발휘합니다.

1. 냉장고 파먹기 (Recipe)

냉장고 문을 열고 사진을 한 장 찍어 올리세요. 그리고 물어봅니다.
"지금 보이는 재료들로 만들 수 있는, 20분 컷 저녁 메뉴 레시피 3개만 추천해줘." AI는 재료를 인식하고(양파, 계란, 두부...), 그것들을 조합해 요리법을 내놓습니다.

2. 개발자의 꿈 (Sketch to Code)

이면지에 대충 웹사이트 구조(네모 박스, 버튼)를 그립니다. 사진을 찍어 올리고 "이 그림대로 작동하는 HTML 뼈대 코드를 짜줘"라고 하면, Ep 02의 모듈화 원칙에 따라 코드를 작성해 줍니다.

물론 이 코드가 곧바로 상용화될 수준은 아니지만, 개발자에게 "대충 이런 느낌으로 만들어주세요"라고 전달할 '작동 가능한 초안(Skeleton)'으로는 손색이 없습니다.

Outro: 정지된 세상에서 움직이는 세상으로

이제 AI는 듣고(Text), 그리고(Image), 보는(Vision) 능력까지 갖췄습니다. 텍스트와 이미지를 자유자재로 넘나드는 '멀티모달' 시대의 정점입니다. 이것으로 Season 2. 이미지 마스터 과정의 핵심 기술을 모두 마쳤습니다.

하지만 우리의 세상은 멈춰 있지 않습니다. 이미지는 움직일 때 비로소 생명력을 얻습니다. 다음 편부터는 대망의 Season 2 Part 4. 비디오 & 오디오(Video & Audio) 파트가 시작됩니다.

정지된 그림이 춤을 추고, AI가 내 목소리로 노래를 부르는 마법 같은 이야기. Ep 42. 그림을 영상으로? '이미지 투 비디오' 편에서 뵙겠습니다.

💡 Action Item:

책상 위에 있는 영수증이나 복잡한 서류를 하나 찍으세요.
챗GPT나 제미나이에 올리고 이렇게 말해보세요.
"이 내용을 표(Table)로 정리해줘."
타이핑 노가다에서 해방되는 경험을 직접 해보세요.

반응형