이미지 글자 추출 (OCR)

사진·스크린샷의 한국어·영어 → 텍스트로. 브라우저에서 Tesseract.js WASM 실행.

이미지가 외부 서버로 전송되지 않습니다. OCR 처리는 브라우저 내부의 WASM 엔진에서 수행됩니다. 단 엔진과 학습 데이터(~13MB)는 첫 사용 시 CDN에서 1회 다운로드 후 IndexedDB 캐시.

⚠️ 정확도 안내 — OCR은 이미지 품질·폰트·언어에 따라 인식률이 달라집니다(보통 80~95%). 결과는 반드시 사람이 검토하고, 계약서·법적 문서·정확한 수치가 필요한 자료는 수기 확인하세요.

이미지를 드래그하거나 클릭해서 선택

JPG · PNG · WebP — 1장씩 처리

인식 언어

첫 실행 시 학습 데이터 다운로드 — 한국어 ~13MB · 영어 ~10MB · 한자 번체 ~16MB · 간체 ~15MB · 일본어 ~13MB. Wi-Fi 권장.

OCR 정확도 영향 요인

요인	좋음	나쁨
해상도	가로 1000px 이상	500px 이하
대비	흰 배경 + 검은 글자	색상 배경 + 옅은 글자
각도	정면, 수평	기울어짐, 원근
폰트	고딕·명조 등 인쇄체	손글씨, 흘림체
레이아웃	가로쓰기 1단	세로쓰기, 다단, 표
잡음	없음	줄·얼룩·반사·그림자

인식 언어 모드 고르는 법

OCR은 선택한 언어 모델 안에서만 글자를 찾습니다. 이미지에 없는 언어를 고르면 오인식이 늘고, 필요한 언어를 빠뜨리면 그 부분이 깨집니다. 이미지에 실제로 들어있는 문자에 맞춰 고르세요.

이미지 내용	권장 모드	메모
한글만	한국어	가장 가벼움 (~13MB)
영문·숫자만	영어	송장·코드·URL에 적합
한글 본문 + 영문·숫자 섞임	한국어 + 영어 (혼합)	두 모델 다 받아 첫 실행이 더 김
한문·고전·번체 한자	한자 (번체)	한국 고문서·비문에 적합
중국 간체	중국어 (간체)	—
일본어 (가나·한자)	일본어	—
한글 + 한자 혼용 문서	한국어 + 한자 (혼합)	옛 신문·학술 표기

혼합 모드는 두 언어 모델을 모두 내려받아 첫 실행이 더 걸리고, 후보 글자가 늘어 단일 언어보다 오인식 여지도 조금 커집니다. 한 언어만 명확하면 단일 모드가 더 정확하고 빠릅니다. 같은 언어로 여러 장을 연달아 처리하면 엔진을 재사용해 두 번째 장부터 빨라집니다. 추출 결과는 줄 끝 공백과 과도한 빈 줄·연속 공백을 자동으로 정리해 보여 줍니다.

자주 묻는 질문

이미지가 외부 서버로 전송되나요?

이미지는 전송되지 않습니다. OCR 처리는 사용자 브라우저 안의 Tesseract.js WASM 엔진에서 100% 로컬로 수행됩니다. 단 OCR 엔진의 worker 코드와 한국어 학습 데이터(약 13MB)는 첫 사용 시 jsdelivr CDN에서 1회 다운로드되며, 이후는 브라우저 IndexedDB에 캐시되어 오프라인에서도 사용 가능합니다. 사이트 운영자도 이미지 내용을 볼 수 없습니다.

처음 실행할 때 왜 오래 걸리나요?

첫 실행 시 OCR 엔진 코어(WASM)와 한국어 학습 데이터(약 13MB)를 다운로드합니다. 이후 같은 브라우저에서는 IndexedDB에 캐시되어 즉시 시작됩니다. 모바일 데이터로는 첫 사용을 피하고 Wi-Fi 환경에서 한 번 실행해두는 것을 권장.

정확도가 100%인가요?

OCR은 이미지 품질·폰트·배치·언어에 따라 정확도가 달라지는 통계적 추론 작업이며 100%를 보장하지 않습니다. 본 도구는 Tesseract.js로 일반적인 인쇄·디지털 텍스트는 80~95% 수준의 정확도를 보입니다. 손글씨·세로쓰기·왜곡된 문서는 정확도가 크게 떨어집니다. 결과는 반드시 사람이 검토하고 중요한 문서는 수기 입력하세요.

어떤 언어를 지원하나요?

한국어, 영어, 한국어+영어 혼합, 한자(번체), 중국어(간체), 일본어, 한국어+한자 혼합 7개 모드를 지원합니다. 혼합 모드는 두 언어 데이터를 모두 다운로드하므로 첫 실행 시 시간이 더 걸립니다. 위 "인식 언어 모드 고르는 법"에서 상황별 권장 모드를 확인하세요.

결과가 이상하게 깨져요.

① 사진이 흐릿하거나 기울어진 경우 → 똑바로·선명하게 다시 촬영 ② 배경에 다른 텍스트·노이즈가 많으면 추출 도구로 텍스트 영역만 잘라서 ③ 폰트 크기가 너무 작으면 이미지를 확대해서 ④ 한국어 본문에 영문이 섞여있으면 '한국어+영어' 모드를 사용하세요.

PDF에서 글자 추출도 가능한가요?

현재 도구는 이미지(JPG·PNG·WebP)만 지원합니다. PDF에서 텍스트가 이미 디지털로 들어있다면 PDF 뷰어에서 그냥 복사하면 됩니다. PDF가 스캔본이라 OCR이 필요하다면 페이지를 이미지로 추출(스크린샷 등)한 후 본 도구에 올리세요.

참고

최종 검증: 2026-05-05 / Tesseract.js (Apache-2.0) WASM 엔진 사용.

Tesseract.js (Apache-2.0) — GitHub
Tesseract OCR 엔진 — GitHub (Google, Apache-2.0)
한국어 학습 데이터 — tessdata

⚠️ 인식 결과는 본 도구의 책임 범위가 아니며, 사용자가 검토·정정해 사용해야 합니다.

이미지 글자 추출 (OCR)

OCR 정확도 영향 요인

인식 언어 모드 고르는 법

관련 도구

자주 묻는 질문

참고