クローラに取りこぼされないための「sitemap」
2007.10.04
通常インターネット上のサイトは、定期的に検索エンジンクローラ(Google BOTや Yahoo BOT)が回ってきますが、すべてのページがインデックスされるわけではありません。そこで、取りこぼしをなくすための措置がsitemap(サイトマップ)です。当ブログでも、Google用サイトマップを設置していますが、仕様の標準化とクローラへの指示ファイル「robots.txt」への記述方法がありましたので、ご紹介します。もちろん自分へのメモでもあります。
● robots.txt への記述
サイトマップへのパス(http://から始まるパス)を記述します。
例>
Sitemap: http://example.com/sitemap.xml
→robots.txt の作成に関しては「とほほ様」のサイトが参考になります。
「
robots.txt とは? (http://www.tohoho-web.com/wwwxx079.htm)」
● サイト管理ツール
Google :
Google ウェブマスター ツール(http://www.google.com/webmasters/sitemaps/?hl=ja)
Yahoo :
Yahoo! Site Explorer (https://siteexplorer.search.yahoo.com/) 英語(yahoo.comのアカウントが必要で、日本のアカウントとは別です。)
● サイトマッププロトコル
検索エンジンクローラに対応する標準プロトコル
sitemaps.org
最近、Yahooのモバイル向けページ用クローラが回ってきています。これ、モバイル向けサイトを構築しましょうってことでしょうか。・・・がんばるわ。
追記>
Yahoo! Site Explorer において、キー登録の際に、METAタグの記述とHTMLファイルをアップする方法があります。ところがHTMLファイルをYahoo! Site Explorerからダウンロードしたファイルは、「y_key_」の直後に「.」(ドット)が含まれていることがあります。もし、ドットが含まれている場合は、削除してアップしてください。(ページ上からダウンロードしたものをそのままアップしたのに404エラーがでて変だと思ったらドットが入っていました。ドットが小さくて見落としました。)