crawler.shの概要
- 料金
- 有料
- 主な強み
- 調整可能なパフォーマンスでドメイン全体を数秒でクロール · クリーンなMarkdownとSEOメタデータを自動で抽出 · 柔軟性と統合のための複数のエクスポート形式
crawler.shについて
crawler.shは、開発者に必要なスピードとシンプルさを備えたエンタープライズグレードのウェブクロールを提供します。サイト構造の監査、コンテンツの移行、SEOメタデータの分析など、設定可能な同時実行数、深度制限、ポライトディレイによってサーバー負荷に配慮しながら、ドメイン全体を数秒でクロールします。パフォーマンスチューニングを完全に制御できるため、クロールは攻撃的になることなく高速に実行されます。
コンテンツ抽出はインテリジェントで実用的です。各ページからメイン記事コンテンツを分離し、ノイズを取り除いて構造を保持したクリーンなMarkdownに自動変換します。検索結果には単語数、著者バイライン、抜粋データが含まれ、手動でのクリーンアップなしに下流のパイプライン、コンテンツ管理システム、分析ワークフローにすぐに活用できます。
エクスポート形式の柔軟性により、crawler.shは既存のワークフローにシームレスに統合されます。リアルタイムのパイプライン処理にはNDJSONとしてストリーム出力、プログラムからのアクセスにはJSON配列としてエクスポート、SEOツール向けにはW3C準拠のサイトマップXMLファイルを生成できます。Markdownコンテンツアーカイブでは、人間が読める形式でサイトのスナップショットを保存できます。
プライバシーとセキュリティは設計段階から組み込まれています。すべてのクロールと解析はローカルマシン上で実行され、クラウドへのアップロードやサードパーティによる処理は一切ありません。このアプローチは、機密性の高いサイト、リリース前の環境、ステージングサーバー、インフラから外部に出してはいけない独自コンテンツの処理に不可欠です。ローカルファーストのモデルは、APIのレート制限や外部依存関係も排除します。
機能
- 高速サイトクロール:設定可能な同時実行数、深度制限、ポライトディレイにより、サーバーに負担をかけずにパフォーマンスを調整しながら、ドメイン全体を数秒でクロールします。
- Markdownへのコンテンツ抽出:各ページのメイン記事コンテンツを自動で分離し、単語数、著者バイライン、抜粋とともにクリーンなMarkdownに変換し、一貫した下流利用を可能にします。
- 複数のエクスポート形式:クロール結果をパイプライン向けにNDJSONとしてストリーム出力、またはJSON配列、W3Cガイドラインに準拠したサイトマップXML、Markdownコンテンツアーカイブとしてエクスポートできます。
- ローカルファーストでプライバシー重視の設計:すべてのクロールと解析はユーザー自身のマシン上で実行されるため、機密性の高いサイト、リリース前の環境、独自コンテンツの処理に適しています。
メリット
デメリット
crawler.shの料金プラン
CLI Tool
$99 per year
Desktop Pro
$99 per year