RAG 기반 문서 검색 시스템 - 12(OCR 기반 문서 자동 텍스트 인식 및 저장 기능 구현)
·
사이드 프로젝트
개요이전 글에서는 RAG 기반 문서 검색 시스템에 문서 분류 및 권한 기반 접근 제어(RBAC) 기능을 구축하여, 카테고리 기반 검색과 역할 기반 접근 정책을 완성했다. 권한 변경 이력, 알림 시스템, 프론트엔드 UI 제어까지 포함한 종합적인 권한 관리 체계를 구현했다. 이번 글에서는 OCR(Optical Character Recognition) 기능을 RAG 시스템에 통합한 작업 내용을 정리한다. 이미지 또는 도면 내 텍스트를 자동으로 추출하고, 이를 임베딩 파이프라인과 연계하여 벡터 검색까지 연결하는 흐름을 구현하였다.OCR 기능 통합 작업 흐름1. OCR 파이프라인 설계 및 서비스 구현Tesseract OCR 엔진과 pytesseract 라이브러리를 기반으로 OCR 파이프라인 구현파일 업로드 → 언..