EulerPress – 기업용 문서 번역 도구

핵심 기능

코드와 수식을 건드리지 않는 지능형 문서 번역

정밀 보존 번역

markdown-it-py 기반 CommonMark 완전 호환 파서가 코드 펜스, 인라인 코드, 수식, 프론트매터, Raw HTML을 자동 식별하여 보존합니다. 산문 텍스트만 정확하게 번역됩니다.

지원 포맷	Markdown, HTML, Plain Text, JSONL
보존 요소	코드 블록, 인라인 코드, 수식($...$, $$...$$), URL, 프론트매터
파서	markdown-it-py (CommonMark 100%), BeautifulSoup4 (HTML)

로컬 우선 아키텍처

Ollama 로컬 LLM을 기본 번역 엔진으로 사용하여, 기업 기밀 문서가 외부로 유출되지 않습니다. OpenAI API도 선택적으로 지원합니다.

번역 엔진	Ollama (로컬), OpenAI (선택)
데이터 보안	모든 처리가 로컬에서 완결, 외부 전송 없음
설정 방식	YAML 선언적 설정, CLI 오버라이드 지원

AI 학습 데이터 번역

JSONL 학습 데이터를 대규모로 번역하는 전용 파이프라인

Traindata 파이프라인

eulerpress traindata 명령으로 JSONL 학습 데이터를 Ollama 기반 동시 HTTP 요청으로 고속 번역합니다.

수식 보존: $...$, $$...$$, $...$, \[...\] 등 LaTeX 수식을 플레이스홀더로 보호 후 복원.
동시 처리: ThreadPoolExecutor 기반 멀티워커, 레코드 단위 병렬 번역.
증분 출력: 레코드 완료 즉시 파일에 기록, 중단 시에도 결과 보존.
이어쓰기: 기존 출력 레코드를 건너뛰고 새 레코드만 번역.

품질 보증

번역 결과의 품질을 자동으로 검증하고, 문제가 있는 결과를 플래그합니다.

번역 검증: 길이 비율, 숫자 전용 감지, 플레이스홀더 수 검사.
포맷 보존 스코어링: 코드 펜스, 수식, URL 손상 감지.
자동 청킹: 긴 텍스트를 문장 경계로 분할하여 번역 품질 유지.
용어집 검색: Tavily 기반 도메인 용어집으로 일관된 번역 보장.

CLI 레퍼런스

5개의 핵심 명령으로 문서 번역 전체 워크플로우를 수행합니다

`translate`

YAML 설정 파일에 따라 문서를 번역합니다. 소스 디렉토리, 타겟 언어, 모델 등을 CLI로 오버라이드할 수 있습니다.

`traindata`

JSONL 학습 데이터를 Ollama로 동시 번역합니다. 수식 보존, 증분 출력, 이어쓰기를 지원합니다.

`validate`

YAML 설정 파일을 실행 없이 검증합니다. 문제가 있으면 3줄 포맷 에러를 출력합니다.

`plan`

드라이런: 번역 대상 파일 수, 세그먼트 수, 예상 토큰 수를 미리 확인합니다.

`doctor`

시스템 의존성(Ollama 바이너리, 서버 연결, 사용 가능 모델)을 점검합니다.

아키텍처

모듈형 설계로 포맷, 엔진, 품질 보증을 독립적으로 확장

config.yaml → Loader → Validator → EulerPressConfig ↓ Translator ├── discover_files() ├── for each file: │ ├── get_parser(ext) → Parser │ ├── parser.parse() → [Segment] │ ├── provider.translate(chunks) │ └── parser.render(segments) → output └── write output (mirror structure)

패키지 구조

`config`	YAML 스키마, 로딩, 검증
`parsers`	Markdown, HTML, Plain Text 파서
`engine`	번역 프로바이더 (Ollama, OpenAI, Fake)
`core`	오케스트레이터, 플래너, 닥터, 에러
`scoring`	품질 스코어링, 모델 선택, API 평가
`traindata`	JSONL 학습 데이터 번역 (Ollama 동시 처리)
`glossary`	도메인 용어집 검색 (Tavily)

기술 사양

언어	Python 3.12+
Markdown 파서	markdown-it-py + mdformat (CommonMark 100%)
HTML 파서	BeautifulSoup4 + lxml
번역 엔진	Ollama (로컬), OpenAI (클라우드)
청킹 전략	sentence, whitespace, hard
에러 포맷	3줄 포맷 (Category / Fix / See)
라이선스	MIT (전 의존성 포함)

튜토리얼

단계별 가이드로 EulerPress를 빠르게 익히세요

튜토리얼은 공개 예정입니다.

설치 및 시작하기

EulerPress를 설치하고 첫 번째 번역을 시작하세요

설치

pip install eulerpress

# Ollama 로컬 LLM 설치
ollama pull gemma3:27b

요구 사항

Python 3.12+

Ollama (로컬 번역 시)

GitHub

eulerwa/eulerpress

EulerPress로 문서 번역을 자동화하세요

로컬 우선, 코드 보존, 기업용 품질의 번역 도구.

GitHub에서 시작하기 문의하기