ハクソク

世界を動かす技術を、日本語で。

Show HN: Defuddle、Readabilityの代替となるHTMLからMarkdownへの変換ツール

2025年5月23日原文(github.com)

概要

Defuddle はウェブページから不要な要素を除去し、主要コンテンツのみを抽出する JavaScriptライブラリ です。
Obsidian Web Clipper 用に開発され、HTMLからMarkdown変換にも最適です。
Mozilla Readability の代替として、より柔軟で一貫した出力を提供します。
Node.js と ブラウザ の両方で利用可能で、CLIツールも用意されています。
クリーンなHTML・Markdown出力や、豊富なメタデータ抽出が特長です。

Defuddle: ウェブページから主要コンテンツを抽出する新しいツール

Defuddleとは

Defuddle は、ウェブページから コメント、サイドバー、ヘッダー、フッター などの不要な要素を除去し、 主要な本文のみを抽出 するライブラリ提案
クリーンで一貫性のある HTMLドキュメント出力 を目指し、 Obsidian Web Clipper のために開発確認
HTML→Markdown変換 ツール（例：Turndown）への入力にも適している提案
Mozilla Readability の代替として利用可能で、より柔軟な出力やメタデータ抽出機能を持つ比較
オープンソース で、CLIツールも提供導入

主な特徴

不要な要素（コメント、広告、SNSボタンなど）を 正確に除去 し、本文だけを残すこと整理
脚注、数式、コードブロック なども標準化して出力標準化
モバイル用スタイル を参考に、不要な要素を自動判別自動判別
schema.org などのリッチメタデータも抽出データ抽出
Markdown変換 や、 タイトル・著者・公開日 などの情報も取得可能情報取得

インストール方法

npmを利用して Defuddle をインストール
```
npm install defuddle
```
Node.jsで利用する場合は、 JSDOM もインストール
```
npm install jsdom
```
package.json のtypeを"module"に設定すること設定

使い方

ブラウザ の場合
- import { Defuddle } from 'defuddle';でインポート導入
- const defuddle = new Defuddle(document);で現在のドキュメントを解析解析
- const result = defuddle.parse();で結果を取得結果取得
- console.log(result.content);などで本文やメタデータを出力出力
Node.js の場合
- JSDOMとDefuddleをインポートし、HTML文字列やURLから解析解析
- オプションで デバッグ、Markdown変換、URL指定 などが可能オプション利用

返却されるプロパティ

author （著者名）、 content （本文）、 description （概要）、 domain （ドメイン名）
favicon （ファビコンURL）、 image （メイン画像URL）、 metaTags （メタタグ情報）
parseTime （解析時間）、 published （公開日）、 site （サイト名）
schemaOrgData （schema.orgデータ）、 title （タイトル）、 wordCount （語数）情報取得

バンドルの種類

Core bundle（defuddle） ：ブラウザ用、依存なし、標準的な用途向け推奨
Full bundle（defuddle/full） ：数式解析機能追加、MathML⇔LaTeX変換も対応拡張
Node.js bundle（defuddle/node） ：JSDOM利用、Markdown変換や数式処理も完全対応 Node.js向け

オプション設定

debug ：デバッグログを有効化ログ確認
url ：解析対象ページのURLを指定 URL指定
markdown ：Markdownへの変換を有効化変換
separateMarkdown ：HTMLとMarkdownを分けて返却分離
removeExactSelectors/PartialSelectors ：広告やSNSボタンなどの除去対象を細かく制御制御

デバッグモード

デバッグモード を有効にすると、詳細なログや、HTML属性の保持、divの構造維持などが可能詳細確認

HTML標準化の詳細

見出し ：H1/H2がタイトルと一致すれば削除、H1はH2へ変換、アンカーリンクは除去標準化
コードブロック ：行番号やハイライトを除去し、言語情報は属性として保持整理
脚注：インライン参照や本文末の脚注を標準フォーマットに変換統一
数式：MathJaxやKaTeXもMathMLへ変換、LaTeX表現も属性で保持変換

開発・ビルド方法

Node.js と npm が必要必要条件
npm installで依存関係インストール導入
npm run buildでビルドビルド

CLIツールと参考リンク

Defuddle CLI も提供されており、コマンドラインからも利用可能 CLI利用
Obsidian Web Clipper や Mozilla Readability との比較も参考になる比較
- Defuddle CLI GitHub 参照
- Obsidian Web Clipper 参照
- Mozilla Readability 参照

Defuddle は、 Read-it-laterアプリ や Webクリッピング ツールの開発者にとって、 主要コンテンツ抽出・変換 の新たな選択肢となります。導入検討

Hackerたちの意見

Pythonの類似品はしっかりメンテナンスされてるみたいだね。数年前に自分でReadabilityアルゴリズムを実装したけど、そっちをやめて、今は定期的に更新してるスクレイパーがいくつか動いてるよ。

└

特におすすめのものはある？

最近これについて調べてたんだけど、いろんな言語のReadability実装の質にはあまり感心しなかったな。Readability.jsが明らかに一番良かったけど、JavaScriptだから自分のプロジェクトには合わなかった。結局、pythonのtrafilaturaライブラリを見つけて、質の高いコンテンツを正確なメタデータとともに抽出できたよ。自分の実装とtrafilaturaを比べてみると、改善の余地があるかもしれないね。

└

ライブラリの参考リンク: https://trafilatura.readthedocs.io/en/latest/ 興味がある人のために: Trafilaturaはイタリア語で「押出し」を意味するよ。この方法は、ソースを持つ特別なパスタtrafilataを区別する多孔質の表面を作るんだ。maccheroni trafilatiとmaccheroni lisciを比べてみてね :) （ちなみに、trifaturaじゃなくてtrafilaturaって言いたかったんだと思うよ）

└

...Javascriptだと俺のプロジェクトには合わなかったんだ。もしGoを使ってるなら、Readability[0]とTrafilatura[1]のGoポートを管理してるよ。どちらもアクティブにメンテされてて、Trafilaturaの抽出性能はPython版に匹敵するよ。 [0]: https://github.com/go-shiori/go-readability [1]: https://github.com/markusmobius/go-trafilatura

└

ちょっと古いけど、数年前にいくつかのウェブ抽出ツールをベンチマークしたことがあるよ。https://github.com/Nootka-io/wee-benchmarking-tool、当時はresiliparse-plainが明らかに勝者だった。

Obsidian Web Clipperのソースコードを見てたんだけど、マークダウン変換の結果にかなり感心して、Defuddleを見つけたよ。自分のカスタムの「後で読む」/ナレッジベースアプリで使う予定だから、ありがとうね :D

Obsidian Web Clipperにはめっちゃ満足してる！一つだけ、公開日をインポートするのがうまくいかなかったけど（それは全然許せる範囲だよ！）

Obsidian Web Clipperは、chatGPTの会話をマークダウンに変換するのにすごく便利だし、ただ印刷するためにも使えるよ（信じて、これもユーザーケースだよ）

└

ChatGPTに要約とか必要なものをマークダウンファイルで提供してもらうだけだよ。

└

他のクライアントについてはわからないけど、Kagi Assistantは会話をマークダウンとして保存するオプションを直接提供してるよ。Obsidianのウェブクリッパーを使うのもいいアイデアだね。

└

それって有料のプラグインなの？

Hacker Newsで議論の続きを見る