Show HN: PDF 2 Context – Convert PDF text to JSONL filespdf2context는 PDF 파일을 LLM과 RAG 파이프라인에 적합한 JSONL 형식의 텍스트 청크로 변환하는 ...

Show HN: PDF 2 Context – Convert PDF text to JSONL filespdf2context는 PDF 파일을 LLM과 RAG 파이프라인에 적합한 JSONL 형식의 텍스트 청크로 변환하는 Golang 기반 CLI 도구입니다. pdftotext를 이용한 텍스트 추출과 OCR 자동 대체 기능을 제공하며, 헤더/푸터 제거, 유니코드 정규화 등 텍스트 전처리도 지원합니다. 병렬 처리, 청크 크기 및 중첩 설정이 가능하고, 처리 현황을 실시간으로 보여주는 TUI를 포함해 대규모 PDF 데이터셋을 효율적으로 준비할 수 있습니다. AI 개발자가 LLM 학습 및 검색 증강 생성에 활용할 수 있는 실용적인 도구입니다.https://github.com/EwanValentine/pdf2context#pdf #jsonl #llm #rag #golang

Read Original

Related

Mastodon discussion 31m ago

Как юрист софт пилил (и комплаенс с AI дружил)Программистам не судить, Геймдеву в комментах быть! В этот раз — немного л...

Как юрист софт пилил (и комплаенс с AI дружил)Программистам не судить, Геймдеву в комментах быть! В этот раз — немного личного и абсолютно без заумной юридической терминологии. В э...