PDF OCR이란 무엇인가요? 무료로 변환하는 방법은?

종종 스캔했던 문서를 PDF로 변환하여 열어봤을 때, 파일 내용 속 텍스트로 찍히지 않고 이미지로 저장되는 상황이 종종 발생할 수 있는데, 이러한 경우 특정 문장이나 단어를 마우스로 드래그 하거나, PDF 검색 기능을 사용해도 바로 바로 찾을 수 없다는 불편한 점이 있는데 이번 가이드에서 개념이나 PDF나비에서 제공하는 OCR 기능 사용 방법의 대해 자세히 알아보도록 하겠습니다.

PDF OCR이란 무엇인가?

이미지 파일로 저장되어 버렸거나, 특정 이미지 속에 있는 글자나 문구를 추출할 수 있게 해주는 프로그램이 바로 OCR인데, Optical Character Recognition의 줄임말로 광학 문자 인식이란 것을 의미하며, 이미지나 PDF에 포함된 글자를 컴퓨터가 읽을 수 있는 텍스트로 변환해 준다는 뜻을 가르킵니다.

이를 활용하면 PDF 속에 있는 텍스트를 검색할 수 있거나, 복사할 수 있는 형태로 바꿀 수 있는데. 특히 대부분 인터넷에서 떠돌아다니는 양식 파일이나 계약서 등, 이미지 형태로 제공되는 경우가 많고, 외국 문서인 경우에는 언어의 벽 때문에 번역해야할 경우 특정 문구를 복사하여 쉽게 번역 후 이해가 가능하게 만들어 준다는 장점이 있습니다.

작동원리는?

시스템이 PDF 속 페이지를 이미지처럼 보고, 그 안에서 문자를 찾아낸 뒤 AI 혹은 특정 툴이 하나씩 해석해서 컴퓨터가 읽을 수 있는 텍스트로 바꾸는 과정 거치는데, PDF나비의 OCR의 경우는 텍스트 포맷을를 선택하는 경우 EasyOCR 기반으로 인식 과정으로 글자를 뽑아 텍스트 파일로 만들어 주고, 검색 가능한 PDF를 선택하면 ocrmypdf 방식으로 스캔 페이지에 OCR을 적용해 기울어짐 보정과 정리 과정이 거쳐진 후 보이지 않는 텍스트 레이어’를 PDF 위에 얹어 검색과 복사가 되는 PDF로 저장하는 기능을 제공합니다.

PDF OCR 사용 방법이 어떻게 되나요?

우리 플랫폼 기준으로 해서 PDF OCR 도구를 사용하는 방법의 대해 총 5단계 기준으로 해서 살펴보는데, 우선 텍스트가 긴 파일이거나 용량이 제법 있는 PDF의 경우는 소요 시간이 길어질 수 있습니다.

파일 업로드 및 PDF 파일 속 언어 선택하기
출력 포맷 선택하기
OCR 실행 및 진행
다운로드하기기

파일 업로드 및 PDF 파일 속 언어 선택하기

우선 OCR로 변환할 PDF 또는 이미지 파일을 업로드하고, TXT 파일 혹은 PDF의 출력 형식을 선택합니다. 참고로 업로드 버튼을 클릭하면 파일 선택 창이 열리는데, 여기서 원하는 여러 개의 PDF나 이미지를 한꺼번에 선택 가능합니다.

스캔된 문서 PDF, JPG 사진, PNG 스캔 이미지 등 다양한 형식을 올릴 수 있으며, 업로드한 파일들은 목록에 추가되고, 아직 변환 전 상태로 대기하게 됩니다.

다음으로 파일의 인식할 언어를 선택해야 하는데, OCR 엔진이 문자를 인식할 때 참고할 언어를 지정하는 것인데, 예를 들어 한글 문서라면 한국어를, 영어 문서라면 영어를 선택하면 됩니다.

만약 오리지널 언어에서 다른 언어를 선택하는 경우 인식 정확도나 오류가 발생할 수 있기 때문에 꼭 문서에서 작성되어 있는 언어 만을 체크해야 합니다. 또한, 언어 버튼을 클릭하면 선택/해제가 되며, 한번에 비활성화 하고 싶은 경우 선택 초기화 버튼을 누릅니다.

출력 포맷 선택하기

출력 파일 포맷은 텍스트와 PDF 두 가지 종류가 있는데, 텍스트는 PDF, 이미지 파일 내에 있는 문구를 뽑아서 텍스트로 제공되며, PDF는 검색 가능한 PDF로 만들어주거나, 이미지 파일을 검색 가능한 PDF 형식으로 다운로드 가능하게 합니다.

OCR 실행 및 진행

설정을 마쳤으면 OCR 실행 버튼을 눌러 변환을 시작합니다. 그러면 업로드한 파일들에 대해 순차적으로 OCR 작업이 진행되는, 문서 크기와 페이지 수에 따라 시간이 조금 소요될 수 있습니다.

진행 중에는 화면에 진행률 막대가 표시되며 현재 작업 상태를 보여줍니다. 파일 용량이나 크기 길이 등의 따라 최대 수분이 소요될 수 있습니다. 혹시 작업 도중에 잘못 올린 파일을 발견했거나 시간이 오래 걸려 취소하고 싶다면 취소를 눌러 작업을 멈출 수 있습니다.

다운로드하기

OCR 작업이 완료되면, 업로드했던 파일 목록에 각 파일의 처리 상태가 완료로 표시됩니다. 다운로드 전에 미리보기를 통해 확인도 가능하기도 합니다.

txt로 변환했다면 해당 텍스트 파일이 다운로드되고, .pdf로 변환했다면 검색 가능한 PDF 파일이 생성됩니다.

마무리

지금까지 PDF OCR 기능을 통해 PDF 내 이미지 글자를 텍스트로 변환하는 방법의 대해 자세히 알아봤는데, 복잡한 설정 없이 웹 브라우저만으로 모든 작업을 간단하게 할 수 있기 때문에 그렇게 큰 어려움 없이 누구나 OCR 기능 사용 가능하리라 생각합니다. 이 외 에도 해당 웹사이트에서는 PDF 관련 매우 다양한 도구들을 제공하기 때문에 천천히 확인해보시면 좋을 거 같습니다.