이미지 글자 추출 (OCR)

사진·스크린샷의 한국어·영어 → 텍스트로. 브라우저에서 Tesseract.js WASM 실행.

이미지가 외부 서버로 전송되지 않습니다. OCR 처리는 브라우저 내부의 WASM 엔진에서 수행됩니다. 단 엔진과 학습 데이터(~13MB)는 첫 사용 시 CDN에서 1회 다운로드 후 IndexedDB 캐시.
⚠️ 정확도 안내 — OCR은 이미지 품질·폰트·언어에 따라 인식률이 달라집니다(보통 80~95%). 결과는 반드시 사람이 검토하고, 계약서·법적 문서·정확한 수치가 필요한 자료는 수기 확인하세요.

첫 실행 시 학습 데이터 다운로드 — 한국어 ~13MB · 영어 ~10MB · 한자 번체 ~16MB · 간체 ~15MB · 일본어 ~13MB. Wi-Fi 권장.

[ AdSense 광고 자리 ]

OCR 정확도 영향 요인

요인좋음나쁨
해상도가로 1000px 이상500px 이하
대비흰 배경 + 검은 글자색상 배경 + 옅은 글자
각도정면, 수평기울어짐, 원근
폰트고딕·명조 등 인쇄체손글씨, 흘림체
레이아웃가로쓰기 1단세로쓰기, 다단, 표
잡음없음줄·얼룩·반사·그림자

인식 언어 모드 고르는 법

OCR은 선택한 언어 모델 안에서만 글자를 찾습니다. 이미지에 없는 언어를 고르면 오인식이 늘고, 필요한 언어를 빠뜨리면 그 부분이 깨집니다. 이미지에 실제로 들어있는 문자에 맞춰 고르세요.

이미지 내용권장 모드메모
한글만한국어가장 가벼움 (~13MB)
영문·숫자만영어송장·코드·URL에 적합
한글 본문 + 영문·숫자 섞임한국어 + 영어 (혼합)두 모델 다 받아 첫 실행이 더 김
한문·고전·번체 한자한자 (번체)한국 고문서·비문에 적합
중국 간체중국어 (간체)
일본어 (가나·한자)일본어
한글 + 한자 혼용 문서한국어 + 한자 (혼합)옛 신문·학술 표기

혼합 모드는 두 언어 모델을 모두 내려받아 첫 실행이 더 걸리고, 후보 글자가 늘어 단일 언어보다 오인식 여지도 조금 커집니다. 한 언어만 명확하면 단일 모드가 더 정확하고 빠릅니다. 같은 언어로 여러 장을 연달아 처리하면 엔진을 재사용해 두 번째 장부터 빨라집니다. 추출 결과는 줄 끝 공백과 과도한 빈 줄·연속 공백을 자동으로 정리해 보여 줍니다.

관련 도구

Tesseract.js 라이브러리
Tesseract.js는 Google이 공개한 Tesseract OCR 엔진을 WebAssembly로 컴파일한 브라우저 라이브러리. Apache-2.0 라이선스. 클라이언트 100% 동작.
학습 데이터(traineddata)란?
각 언어의 글자 모양·자형 통계를 학습한 모델 파일. 한국어 모델은 약 13MB, 영어는 약 10MB. 본 도구는 jsdelivr CDN(tessdata.projectnaptha.com)에서 자동 다운로드 후 IndexedDB에 캐시 — 두 번째 실행부터는 즉시 시작.
오프라인에서 사용 가능한가요?
한 번 학습 데이터가 캐시된 후에는 오프라인에서 사용 가능합니다. 단 IndexedDB는 일정 기간 미사용 시 또는 사용자가 브라우저 데이터를 삭제하면 비워집니다. 그러면 다음 사용 시 다시 다운로드.
대용량 이미지 처리 시간
이미지 해상도가 클수록 시간이 오래 걸립니다. 4000×3000 이상은 분 단위 소요 가능. 추출 정확도와 시간의 균형은 가로 1500~2000px 정도가 적절합니다. 본 도구의 이미지 리사이즈 도구로 미리 줄이고 OCR 하면 빠릅니다.

자주 묻는 질문

이미지가 외부 서버로 전송되나요?
이미지는 전송되지 않습니다. OCR 처리는 사용자 브라우저 안의 Tesseract.js WASM 엔진에서 100% 로컬로 수행됩니다. 단 OCR 엔진의 worker 코드와 한국어 학습 데이터(약 13MB)는 첫 사용 시 jsdelivr CDN에서 1회 다운로드되며, 이후는 브라우저 IndexedDB에 캐시되어 오프라인에서도 사용 가능합니다. 사이트 운영자도 이미지 내용을 볼 수 없습니다.
처음 실행할 때 왜 오래 걸리나요?
첫 실행 시 OCR 엔진 코어(WASM)와 한국어 학습 데이터(약 13MB)를 다운로드합니다. 이후 같은 브라우저에서는 IndexedDB에 캐시되어 즉시 시작됩니다. 모바일 데이터로는 첫 사용을 피하고 Wi-Fi 환경에서 한 번 실행해두는 것을 권장.
정확도가 100%인가요?
OCR은 이미지 품질·폰트·배치·언어에 따라 정확도가 달라지는 통계적 추론 작업이며 100%를 보장하지 않습니다. 본 도구는 Tesseract.js로 일반적인 인쇄·디지털 텍스트는 80~95% 수준의 정확도를 보입니다. 손글씨·세로쓰기·왜곡된 문서는 정확도가 크게 떨어집니다. 결과는 반드시 사람이 검토하고 중요한 문서는 수기 입력하세요.
어떤 언어를 지원하나요?
한국어, 영어, 한국어+영어 혼합, 한자(번체), 중국어(간체), 일본어, 한국어+한자 혼합 7개 모드를 지원합니다. 혼합 모드는 두 언어 데이터를 모두 다운로드하므로 첫 실행 시 시간이 더 걸립니다. 위 "인식 언어 모드 고르는 법"에서 상황별 권장 모드를 확인하세요.
결과가 이상하게 깨져요.
① 사진이 흐릿하거나 기울어진 경우 → 똑바로·선명하게 다시 촬영 ② 배경에 다른 텍스트·노이즈가 많으면 추출 도구로 텍스트 영역만 잘라서 ③ 폰트 크기가 너무 작으면 이미지를 확대해서 ④ 한국어 본문에 영문이 섞여있으면 '한국어+영어' 모드를 사용하세요.
PDF에서 글자 추출도 가능한가요?
현재 도구는 이미지(JPG·PNG·WebP)만 지원합니다. PDF에서 텍스트가 이미 디지털로 들어있다면 PDF 뷰어에서 그냥 복사하면 됩니다. PDF가 스캔본이라 OCR이 필요하다면 페이지를 이미지로 추출(스크린샷 등)한 후 본 도구에 올리세요.

참고

최종 검증: 2026-05-05 / Tesseract.js (Apache-2.0) WASM 엔진 사용.
⚠️ 인식 결과는 본 도구의 책임 범위가 아니며, 사용자가 검토·정정해 사용해야 합니다.