이미지 글자 추출 (OCR)

사진·스크린샷의 한국어·영어 → 텍스트로. 브라우저에서 Tesseract.js WASM 실행.

이미지가 외부 서버로 전송되지 않습니다. OCR 처리는 브라우저 내부의 WASM 엔진에서 수행됩니다. 단 엔진과 학습 데이터(~13MB)는 첫 사용 시 CDN에서 1회 다운로드 후 IndexedDB 캐시.
⚠️ 정확도 안내 — OCR은 이미지 품질·폰트·언어에 따라 인식률이 달라집니다(보통 80~95%). 결과는 반드시 사람이 검토하고, 계약서·법적 문서·정확한 수치가 필요한 자료는 수기 확인하세요.

첫 실행 시 학습 데이터 다운로드 — 한국어 ~13MB, 영어 ~10MB. Wi-Fi 권장.

[ AdSense 광고 자리 ]

OCR 정확도 영향 요인

요인좋음나쁨
해상도가로 1000px 이상500px 이하
대비흰 배경 + 검은 글자색상 배경 + 옅은 글자
각도정면, 수평기울어짐, 원근
폰트고딕·명조 등 인쇄체손글씨, 흘림체
레이아웃가로쓰기 1단세로쓰기, 다단, 표
잡음없음줄·얼룩·반사·그림자

관련 도구

Tesseract.js 라이브러리
Tesseract.js는 Google이 공개한 Tesseract OCR 엔진을 WebAssembly로 컴파일한 브라우저 라이브러리. Apache-2.0 라이선스. 클라이언트 100% 동작.
학습 데이터(traineddata)란?
각 언어의 글자 모양·자형 통계를 학습한 모델 파일. 한국어 모델은 약 13MB, 영어는 약 10MB. 본 도구는 jsdelivr CDN(tessdata.projectnaptha.com)에서 자동 다운로드 후 IndexedDB에 캐시 — 두 번째 실행부터는 즉시 시작.
오프라인에서 사용 가능한가요?
한 번 학습 데이터가 캐시된 후에는 오프라인에서 사용 가능합니다. 단 IndexedDB는 일정 기간 미사용 시 또는 사용자가 브라우저 데이터를 삭제하면 비워집니다. 그러면 다음 사용 시 다시 다운로드.
대용량 이미지 처리 시간
이미지 해상도가 클수록 시간이 오래 걸립니다. 4000×3000 이상은 분 단위 소요 가능. 추출 정확도와 시간의 균형은 가로 1500~2000px 정도가 적절합니다. 본 도구의 이미지 리사이즈 도구로 미리 줄이고 OCR 하면 빠릅니다.

자주 묻는 질문

이미지가 외부 서버로 전송되나요?
이미지는 전송되지 않습니다. OCR 처리는 사용자 브라우저 안의 Tesseract.js WASM 엔진에서 100% 로컬로 수행됩니다. 단 OCR 엔진의 worker 코드와 한국어 학습 데이터(약 13MB)는 첫 사용 시 jsdelivr CDN에서 1회 다운로드되며, 이후는 브라우저 IndexedDB에 캐시되어 오프라인에서도 사용 가능합니다. 사이트 운영자도 이미지 내용을 볼 수 없습니다.
처음 실행할 때 왜 오래 걸리나요?
첫 실행 시 OCR 엔진 코어(WASM)와 한국어 학습 데이터(약 13MB)를 다운로드합니다. 이후 같은 브라우저에서는 IndexedDB에 캐시되어 즉시 시작됩니다. 모바일 데이터로는 첫 사용을 피하고 Wi-Fi 환경에서 한 번 실행해두는 것을 권장.
정확도가 100%인가요?
OCR은 이미지 품질·폰트·배치·언어에 따라 정확도가 달라지는 통계적 추론 작업이며 100%를 보장하지 않습니다. 본 도구는 Tesseract.js로 일반적인 인쇄·디지털 텍스트는 80~95% 수준의 정확도를 보입니다. 손글씨·세로쓰기·왜곡된 문서는 정확도가 크게 떨어집니다. 결과는 반드시 사람이 검토하고 중요한 문서는 수기 입력하세요.
어떤 언어를 지원하나요?
현재 한국어, 영어, 한국어+영어 혼합을 지원합니다. 혼합 모드는 두 언어 데이터를 모두 다운로드하므로 첫 실행 시 시간이 더 걸립니다. 일본어·중국어 등 추가 언어는 향후 검토 항목.
결과가 이상하게 깨져요.
① 사진이 흐릿하거나 기울어진 경우 → 똑바로·선명하게 다시 촬영 ② 배경에 다른 텍스트·노이즈가 많으면 추출 도구로 텍스트 영역만 잘라서 ③ 폰트 크기가 너무 작으면 이미지를 확대해서 ④ 한국어 본문에 영문이 섞여있으면 '한국어+영어' 모드를 사용하세요.
PDF에서 글자 추출도 가능한가요?
현재 도구는 이미지(JPG·PNG·WebP)만 지원합니다. PDF에서 텍스트가 이미 디지털로 들어있다면 PDF 뷰어에서 그냥 복사하면 됩니다. PDF가 스캔본이라 OCR이 필요하다면 페이지를 이미지로 추출(스크린샷 등)한 후 본 도구에 올리세요.

참고

최종 검증: 2026-05-05 / Tesseract.js (Apache-2.0) WASM 엔진 사용.
⚠️ 인식 결과는 본 도구의 책임 범위가 아니며, 사용자가 검토·정정해 사용해야 합니다.