企業向けドキュメント翻訳 & AI学習データ変換ツール
コードブロック、数式、URLなどの非翻訳要素を完全に保持しながら、散文テキストのみを正確に翻訳するローカルファースト(Local-First)CLIベースの翻訳ツールです。企業内部ドキュメントのローカライズからAI学習用JSONLデータの翻訳まで、単一パイプラインで処理します。
Open Sourceコードと数式に触れない知的ドキュメント翻訳
markdown-it-pyベースのCommonMark完全互換パーサーが、コードフェンス、インラインコード、数式、フロントマター、Raw HTMLを自動識別して保持します。散文テキストのみが正確に翻訳されます。
| 対応フォーマット | Markdown, HTML, Plain Text, JSONL |
|---|---|
| 保持要素 | コードブロック、インラインコード、数式($...$, $$...$$)、URL、フロントマター |
| パーサー | markdown-it-py (CommonMark 100%), BeautifulSoup4 (HTML) |
Ollamaローカルモデルをデフォルト翻訳エンジンとして使用し、企業の機密文書が外部に漏洩しません。OpenAI APIもオプションでサポートします。
| 翻訳エンジン | Ollama(ローカル)、OpenAI(オプション) |
|---|---|
| データセキュリティ | すべての処理がローカルで完結、外部送信なし |
| 設定方式 | YAML宣言的設定、CLIオーバーライド対応 |
JSONL学習データを大規模に翻訳する専用パイプライン
eulerpress traindataコマンドで、OllamaベースのHTTP並行リクエストによりJSONL学習データを高速翻訳します。
翻訳結果の品質を自動的に検証し、問題のある結果をフラグします。
5つのコアコマンドでドキュメント翻訳の全ワークフローを実行
translateYAML設定ファイルに従ってドキュメントを翻訳。ソースディレクトリ、ターゲット言語、モデルなどをCLIでオーバーライド可能。
traindataOllamaでJSONL学習データを並行翻訳。数式保持、増分出力、再開をサポート。
validateYAML設定ファイルを実行せずに検証。問題があれば3行フォーマットエラーを出力。
planドライラン:翻訳対象ファイル数、セグメント数、推定トークン数をプレビュー。
doctorシステム依存関係(Ollamaバイナリ、サーバー接続、利用可能モデル)をチェック。
モジュラー設計でフォーマット、エンジン、品質保証を独立して拡張
config | YAMLスキーマ、ローディング、検証 |
|---|---|
parsers | Markdown、HTML、プレーンテキストパーサー |
engine | 翻訳プロバイダー(Ollama、OpenAI、Fake) |
core | オーケストレーター、プランナー、ドクター、エラー |
scoring | 品質スコアリング、モデル選択、API評価 |
traindata | JSONL学習データ翻訳(Ollama並行処理) |
glossary | ドメイン用語集検索(Tavily) |
| 言語 | Python 3.12+ |
|---|---|
| Markdownパーサー | markdown-it-py + mdformat (CommonMark 100%) |
| HTMLパーサー | BeautifulSoup4 + lxml |
| 翻訳エンジン | Ollama(ローカル)、OpenAI(クラウド) |
| チャンキング戦略 | sentence, whitespace, hard |
| エラーフォーマット | 3行フォーマット(Category / Fix / See) |
| ライセンス | MIT(全依存関係を含む) |
ステップバイステップガイドでEulerPressを素早く習得
チュートリアルは近日公開予定です。
EulerPressをインストールして最初の翻訳を始めましょう
Python 3.12+
Ollama(ローカル翻訳時)