概要
Cloudflare の Browser Rendering で新たに /crawlエンドポイント が公開ベータとして登場。 1回のAPIコールで ウェブサイト全体をクロール 可能。 HTML・Markdown・JSON など多様な出力形式に対応。 非同期ジョブ管理 で効率的なクロール運用。 Workers Free/Paidプラン の両方で利用可能。
Cloudflare Browser Rendering /crawlエンドポイント概要
- /crawlエンドポイント で、指定URLから サイト全体の自動クロール を実現
- ヘッドレスブラウザ によるページレンダリングと自動リンク発見
- HTML・Markdown・構造化JSON (Workers AI対応)での出力形式選択
- API非同期設計 :ジョブIDで進捗・結果を個別取得
- RAGパイプライン構築 や モデル学習用データ収集、 サイト監視 に最適
主要機能
- 複数出力形式 :HTML、Markdown、JSONでのデータ取得
- クロール範囲制御 :クロール深度・ページ数・ワイルドカードパターン指定
- 自動ページ発見 :サイトマップ・ページ内リンクからURL抽出
- インクリメンタルクロール :modifiedSince・maxAgeで変更のないページをスキップ
- スタティックモード :render:false設定で静的HTMLのみ取得、静的サイトの高速クロール
- ロボット遵守 :robots.txtの指示やcrawl-delayを厳守
利用手順
- クロール開始API例
- curl -X POST 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl' -H 'Authorization: Bearer <apiToken>' -H 'Content-Type: application/json' -d '{ "url": "https://blog.cloudflare.com/" }'
- 結果確認API例
- curl -X GET 'https://api.cloudflare.com/client/v4/accounts/{account_id}/browser-rendering/crawl/{job_id}' -H 'Authorization: Bearer <apiToken>'
利用条件・推奨事項
- Workers Free/Paidプラン の両方で利用可能
- 公式ドキュメント 参照による詳細なAPI利用手順確認
- 自サイトクロール時 はrobots.txt・sitemapsのベストプラクティス遵守
活用ユースケース
- AIモデル用コーパス収集
- RAG(Retrieval-Augmented Generation)パイプライン構築
- サイト全体のコンテンツ監視・調査