
- Published on
AllenAI의 olmOCR는 PDF를 텍스트로 바꾸는 또 하나의 OCR 도구처럼 보이지만, 실제 신호는 더 크다. 문서 AI의 병목이 추출 모델에서 자연스러운 읽기 순서, 구조 보존, 단위 테스트형 평가, GPU 배치 처리, 데이터 거버넌스로 이동하고 있다.

AllenAI의 olmOCR는 PDF를 텍스트로 바꾸는 또 하나의 OCR 도구처럼 보이지만, 실제 신호는 더 크다. 문서 AI의 병목이 추출 모델에서 자연스러운 읽기 순서, 구조 보존, 단위 테스트형 평가, GPU 배치 처리, 데이터 거버넌스로 이동하고 있다.

GitHub Trending에 다시 오른 Firecrawl은 단순 웹 스크래퍼가 아니다. Search, Scrape, Extract, Agent, Interact를 하나의 API 표면으로 묶으면서 AI 에이전트가 웹을 읽고 검증하고 구조화하는 데이터 평면으로 진화하고 있다.

Alibaba가 공개한 Zvec는 “가벼운 벡터 데이터베이스”라는 설명보다 더 흥미롭다. 인프로세스 벡터 DB, 하이브리드 검색, DiskANN, 로컬 배포 모델이 결합되면서 RAG와 에이전트 메모리 아키텍처의 기본 선택지가 바뀌고 있다.

Microsoft MarkItDown이 GitHub Trending 1위에 오른 이유는 단순한 파일 변환기가 좋아서가 아니다. PDF·Office·이미지·오디오·HTML을 LLM이 읽기 좋은 Markdown으로 바꾸는 표준화 계층이 RAG와 에이전트 제품의 실제 병목으로 떠올랐기 때문이다.

Supermemory가 GitHub Trending에 다시 올라온 이유는 단순한 벡터DB 대체재라서가 아니다. 사용자 프로필, 메모리 그래프, 하이브리드 검색, 커넥터, SDK/MCP를 하나의 기억 레이어로 묶으면서 에이전트 제품의 다음 병목인 장기 컨텍스트 운영을 정면으로 겨냥한다.

GitHub Trending에 오른 CocoIndex는 단순한 RAG 프레임워크보다 더 중요한 신호를 준다. 장기 실행 에이전트의 병목은 모델 호출이 아니라 코드·문서·Slack·트레이스가 계속 바뀌는 상황에서 컨텍스트를 신선하게 유지하는 증분 동기화 계층이다.