|
時々コラム 2000.8.10号 「水泳と言えばクロール」 でも紹介しました、クロールファイルについて触れたいと思います。
クロールファイルはクローラなどと呼ばれています。
このクローラはロボットエンジンへ確実にURLを収集させる目的で作成されています。
それってどう言うことなのでしょうか?
まず、ロボットはどうやってURLを辿ってURLを収集して行くのでしょう。
基本的には、ある任意のURLをロボットに与えます。(これが、gooやinfoseek japan で言う登録です)
ロボットはそのURLからページを取得しページ解析を行ないます。
するとページ内にはアンカータグ(A HREF=)が色々あり、それらを辿って再帰的にURLの収集を繰り返します。
つまり、ページ内のリンクを辿りながら次から次へと渡り歩き永遠に作業を続けます。
人間には真似できない、まさにコンピュータ様のお得意分野になりますね。
しかしながら、ここに落とし穴と言うか、取りこぼしが出てきます。
もしあなたが登録したURLへ、やっとロボットがやって来たとしましょう。
さぁ、ロボット君は解析を始めますが、全てのリンクを辿ってくれるでしょうか?
仮に100ページあるサイトで、100ページを全て辿りインデックスしてくれるかが問題になります。
ここにコンピュータのモロさが出てしまいます。
ロボット君は、ある決まったパターンの文字列を認識し、どれがURL指定なのかを探します。
この時、認識できずにスキップされたらどうでしょうか。
それは取りこぼしを意味します。
取りこぼしたページにあなたのサイトの50%のリンクがあったら、半分しかインデックスされないことになります。
また、URLと認識しても、拾いに行かない場合も考えられます。
例えば極端に階層が深い場合、スパムが怖いので途中で止めるでしょう。
拾いに行ったページが見つからない場合、これ以上は無駄と判断し去って行くかもしれません。
フレームサイトを解析するのも苦手かもしれません。
テーブルタグの多用で深い入れ子を解析するのも苦手かもしれません。
HTMLの書式間違いは致命的に解析できないかもしれません。
...のように確実に全てのページをインデックスさせるのは困難になります。
では、どうやって確実に登録させれば良いのでしょうか?
ここで登場するのがクロールファイル様です。
クロールファイルは上記ロボット君の欠点を意識し、ロボット君に優しいページを作成します。
つまり、余計な記述を含まないURLだけを書いたページです。
このクロールファイルに、あなたが登録されたいと望む全てのURLを書き出します。
出来上がったクローラを検索ロボットに登録してあげます。
ロボット君は順番にURLを辿り確実に拾って行くことでしょう。
迷子になることもありません...。
以上が一般的に言われるクロールファイルの正体です。
アクセス向上大失敗ではPHPスクリプトを使って Crawl Generator Ver.1.2001.1.5(クロール ジェネレータ) を開発し、クローラを自動生成させています。
Crawl Generator が吐き出したこのサイトの クローラ がこれです。
極々単純なリンク集モドキです。
クロールファイルの作成が出来たらWebサーバへアップロードします。
クローラ自身のファイル名は何でも良いでしょう。(例.crawl.html)
アップロードするディレクトリもどこでも良いと思いますが、管理する上で分けた方が懸命です。
例えば「archive」と言う名前を作り、その中に入れるような感じでしょうか。
ここまで来れば、後はロボット君に拾ってもらう為、 gooやinfoseek japan などに登録しましょう。
その先は寝て待つしかありません。(笑)
<<< トップ << テーマトップ < 前頁 │ 次頁 > Google化 >>
|