기업용 문서 번역 & AI 학습 데이터 변환 도구
코드 블록, 수식, URL 등 비번역 요소를 완벽히 보존하면서 산문 텍스트만 정확하게 번역하는 로컬 우선(Local-First) CLI 기반 번역 도구입니다. 기업 내부 문서 현지화부터 AI 학습용 JSONL 데이터 번역까지, 단일 파이프라인으로 처리합니다.
Open Source코드와 수식을 건드리지 않는 지능형 문서 번역
markdown-it-py 기반 CommonMark 완전 호환 파서가 코드 펜스, 인라인 코드, 수식, 프론트매터, Raw HTML을 자동 식별하여 보존합니다. 산문 텍스트만 정확하게 번역됩니다.
| 지원 포맷 | Markdown, HTML, Plain Text, JSONL |
|---|---|
| 보존 요소 | 코드 블록, 인라인 코드, 수식($...$, $$...$$), URL, 프론트매터 |
| 파서 | markdown-it-py (CommonMark 100%), BeautifulSoup4 (HTML) |
Ollama 로컬 LLM을 기본 번역 엔진으로 사용하여, 기업 기밀 문서가 외부로 유출되지 않습니다. OpenAI API도 선택적으로 지원합니다.
| 번역 엔진 | Ollama (로컬), OpenAI (선택) |
|---|---|
| 데이터 보안 | 모든 처리가 로컬에서 완결, 외부 전송 없음 |
| 설정 방식 | YAML 선언적 설정, CLI 오버라이드 지원 |
JSONL 학습 데이터를 대규모로 번역하는 전용 파이프라인
eulerpress traindata 명령으로 JSONL 학습 데이터를 Ollama 기반 동시 HTTP 요청으로 고속 번역합니다.
번역 결과의 품질을 자동으로 검증하고, 문제가 있는 결과를 플래그합니다.
5개의 핵심 명령으로 문서 번역 전체 워크플로우를 수행합니다
translateYAML 설정 파일에 따라 문서를 번역합니다. 소스 디렉토리, 타겟 언어, 모델 등을 CLI로 오버라이드할 수 있습니다.
traindataJSONL 학습 데이터를 Ollama로 동시 번역합니다. 수식 보존, 증분 출력, 이어쓰기를 지원합니다.
validateYAML 설정 파일을 실행 없이 검증합니다. 문제가 있으면 3줄 포맷 에러를 출력합니다.
plan드라이런: 번역 대상 파일 수, 세그먼트 수, 예상 토큰 수를 미리 확인합니다.
doctor시스템 의존성(Ollama 바이너리, 서버 연결, 사용 가능 모델)을 점검합니다.
모듈형 설계로 포맷, 엔진, 품질 보증을 독립적으로 확장
config |
YAML 스키마, 로딩, 검증 |
|---|---|
parsers |
Markdown, HTML, Plain Text 파서 |
engine |
번역 프로바이더 (Ollama, OpenAI, Fake) |
core |
오케스트레이터, 플래너, 닥터, 에러 |
scoring |
품질 스코어링, 모델 선택, API 평가 |
traindata |
JSONL 학습 데이터 번역 (Ollama 동시 처리) |
glossary |
도메인 용어집 검색 (Tavily) |
| 언어 | Python 3.12+ |
|---|---|
| Markdown 파서 | markdown-it-py + mdformat (CommonMark 100%) |
| HTML 파서 | BeautifulSoup4 + lxml |
| 번역 엔진 | Ollama (로컬), OpenAI (클라우드) |
| 청킹 전략 | sentence, whitespace, hard |
| 에러 포맷 | 3줄 포맷 (Category / Fix / See) |
| 라이선스 | MIT (전 의존성 포함) |
단계별 가이드로 EulerPress를 빠르게 익히세요
튜토리얼은 공개 예정입니다.
EulerPress를 설치하고 첫 번째 번역을 시작하세요
Python 3.12+
Ollama (로컬 번역 시)