Abogen – EPUB、PDF、テキストからオーディオブックを生成する

2025年8月10日原文(github.com)

概要

Abogen はePub、PDF、テキストファイルを高品質な音声と字幕に即時変換するツール
Kokoro-82M 音声モデルを活用し、自然なテキスト読み上げを実現
インストール方法や使い方が Windows/Mac/Linux /Dockerに対応
カスタムボイス作成、バッチ処理、メタデータ追加 など多彩な機能
多言語・多フォーマット対応で、オーディオブックや動画ナレーション用途に最適

Abogen概要

Abogen はテキストファイル（ePub/PDF/TXT）を 高品質な音声と同期字幕 に変換できるツール
Kokoro-82M モデル採用による自然な音声生成
Instagram、YouTube、TikTok などのナレーションやオーディオブック作成に最適
変換速度は 数千文字を数秒で処理 可能
字幕生成 も細かく設定可能（文単位、語単位など）

インストール方法

Windows
- espeak-ng のインストールが必須
- 【スクリプト使用】リポジトリをダウンロードし WINDOWS_INSTALL.bat を実行
  - 依存関係やPythonも自動インストール
- 【pip使用】仮想環境作成後、 pip install abogen
  - NVIDIA GPUはCUDA対応torchをインストール
  - AMD GPUはWindows未対応、Linux推奨
Mac
- brew install espeak-ng でespeak-ngを導入
- 仮想環境を作成し、 pip3 install abogen
Linux
- ディストリビューションごとに espeak-ng をインストール
- 仮想環境作成、 pip3 install abogen
- NVIDIA GPUは追加設定不要
- AMD GPUはtorchのアンインストールとROCm対応torch再インストールが必要
トラブル対策
- PATH エラー時はパスを追加
- Pythonバージョン非対応エラー時は pyenv でバージョン管理

起動方法

pipインストール時 ：コマンドラインで abogen を実行
Windowsインストーラ利用時 ：ショートカットから起動、または python_embedded/Scripts/abogen.exe を直接実行

基本的な使い方

ePub、PDF、テキストファイルを ドラッグ＆ドロップ または内蔵エディタで入力
音声速度、ボイス選択、字幕スタイル、出力形式、保存先 を設定
Start ボタンで変換開始
バッチ処理 やキュー追加も可能

主な設定項目

入力ボックス ：ファイルのドラッグ＆ドロップやエディタ入力
キュー処理 ：複数ファイルの一括変換、ファイルごとに個別設定保持
音声速度 ：0.1x～2.0xまで調整可能
ボイス選択 ：言語コード＋性別（例：a=American English, m=男性）
ボイスミキサー ：複数ボイスをミックスしカスタムボイス作成
字幕生成 ：文単位、語単位、カンマ区切りなど細かく選択
出力音声形式 ：WAV、FLAC、MP3、OPUS、M4B（チャプター対応）
字幕形式 ：SRT、ASS（ワイド/ナロー/センタリング）に対応
改行置換 ：1行改行をスペースに変換しテキスト整形
保存先 ：入力ファイル横、デスクトップ、任意フォルダから選択

電子書籍用オプション

チャプター指定 ：ePub/PDFの特定チャプターやページを選択
チャプターごとに保存 ：各章を個別音声ファイルとして出力
統合版作成 ：全チャプター結合音声ファイル生成
プロジェクトフォルダ保存 ：メタデータ付きで一括管理

メニューオプション

テーマ変更 ：システム/ライト/ダーク
字幕1エントリー最大語数設定
ログウィンドウ最大行数設定
個別チャプター音声形式選択
デスクトップショートカット作成
設定/キャッシュディレクトリオープン
キャッシュクリア
起動時アップデートチェック
Kokoroのインターネットアクセス制限 （オフライン利用向け）
設定リセット

ボイスミキサー

複数の 音声モデルを合成 し、独自のカスタムボイスを作成可能
重み付け調整・プロファイル保存が可能
独自・個性的な音声生成が可能

キュー（バッチ）モード

複数ファイルを一括処理 できるキュー機能
各ファイルの設定は追加時の状態を保持
メインウィンドウの設定変更は既存キューには影響なし
ファイルごとの設定は マウスオーバー で確認可能

チャプターマーカーとメタデータタグ

<<CHAPTER_MARKER:章タイトル>> タグでチャプター分割・再処理が容易
<<METADATA_TITLE:タイトル>> などのタグでM4B用メタデータを埋め込み可能
ePub/PDF変換時は自動付与、テキストファイルでも手動追加可能

対応言語・ボイス

American English, British English, Spanish, French, Hindi, Italian, Japanese, Brazilian Portuguese, Mandarin Chinese など
日本語・中国語は追加パッケージ（misaki[ja]/misaki[zh]）が必要
詳細はKokoroの VOICES.md、サンプル音声は SAMPLES.md 参照

MPV設定例

MPV プレイヤー推奨、音声ファイルでも字幕表示が可能
mpv.conf 例
- save-position-on-quit
- keep-open=yes
- sub-ass-override=no
- sub-margin-y=50
- sub-margin-x=50
- audio-channels=auto
- audio-samplerate=48000
- volume-max=200

Dockerでの利用

リポジトリをダウンロード し、abogenフォルダでDockerイメージをビルド
【Windows】docker run --gpus all abogen
【Linux/Mac】docker run --gpus all abogen
5800番ポート でWebブラウザアクセス、 5900番ポート でVNC接続可能
/sharedディレクトリ でホスト⇔コンテナ間のファイル共有
既知の問題 ：オーディオプレビュー不可、設定/キャッシュディレクトリオープン不可

類似プロジェクト

audiblez ：電子書籍からオーディオブック生成（CLI/GUI対応）
autiobooks ：epub自動変換
pdf-narrator ：PDF/EPUBのオーディオブック化
epub_to_audiobook ：Audiobookshelf向け最適化変換
ebook2audiobook ：電子書籍から音声生成

ハクソク

Abogen – EPUB、PDF、テキストからオーディオブックを生成する

概要

Abogen概要

インストール方法

起動方法

基本的な使い方

主な設定項目

電子書籍用オプション

メニューオプション

ボイスミキサー

キュー（バッチ）モード

チャプターマーカーとメタデータタグ

対応言語・ボイス

MPV設定例

Dockerでの利用

類似プロジェクト

Hackerたちの意見