プログラムコードをブログなどのWebページに掲載する場合に必要な処理や見た目を整えてくれる便利なライブラリ
記事の内容
- 1 はじめに
- 2 robots.txtについて
- 3 robots.txtの制限
- 4 サイト構築時は全拒否にする?
- 5 指定ディレクトリやファイルを拒否する
- 6 サイトリニューアル時に旧版の不要ディレクトリをrobots.txtで指定するワザ
- 7 「trackback」や「comments」ページを拒否したい?
- 8 指定したファイルのみ拒否する
- 9 パターンマッチ記号「$」
- 10 パターンマッチ記号「*」
- 11 画像ファイルはすべてを拒否する
- 12 拒否したディレクトリの中のサブディレクトリ以下すべてを許可する
- 13 複数のロボットを拒否する
- 14 WordPressの「仮想robots.txt」デフォルト設定
- 15 その他注意事項
- 16 クロールについての注意事項
- 17 検索結果についての注意事項
- 18 sitemap.xmlとの併用について
- 19 Google-botはrobots.txtよりもsitemap.xmlを優先する
- 20 Fetch as Google か サイトマップ か
- 21 秘密のディレクトリは書かない
- 22 「robots.txt」にはなにを指定すればいいのか
- 23 基本例:一般的な「robots.txt」例
- 24 非推奨:ワードプレスのカテゴリーページだけをブロックする「robots.txt」例
- 25 まとめ:本ブログの「robots.txt」※要プラグイン「Yoast WordPress SEO」
- 26 【補足】ウェブマスターツールの注意点
- 27 参考URL
はじめに
- 「robots.txt」概説は2~4
- 文法は5~12
- 注意事項は13~19
- 一般的な記述例は20~21
- 22は読まなくてもOKです
- 23はWordpress専用で、プラグイン「Yoast WordPress SEO」の設定をしたうえでやる推奨設定です。※カテゴリーページは第一階層までクロールさせます
かなり複雑な解説なので、必要な部分を参照してください。
WordPress特化なら23だけ参照すれば良いと思います。
文法については非常に正確に書いてあります。これを理解すると、SEO専門ブログでも誤った解説が多いのがわかります。
robots.txtについて
Coogleなどの検索エンジンに掲載したいものしたくないものを記述するファイルです。検索エンジンのサイト巡回ロボットを制御するので「robots.txt」と呼ばれます。
ファイルはサーバのドキュメントルートに置きます。つまり、一番上の階層にひとつのみ設置します。
robots.txtの制限
- 「robots.txt」に従うかは検索ロボット次第です。
- 記述ルールは「robotstxt.org」にありますが従うかは検索ロボット次第です
- ドキュメントルートにファイルが設置できない場合は使えません
- ファイルサイズは最大500KBまで
サイト構築時は全拒否にする?
User-agent: * Disallow: /
- 最初のスラッシュは「ルート・ディレクトリ」の意味
- この指定だと「ルート・ディレクトリ以下すべて」となります
拒否するURL例
http://xxxxx.com/
http://xxxxx.com/index.html
http://xxxxx.com/1/index.html
拒否しないURL例
なし
Disallow:
上記のようにスラッシュがないと、サイト全体がクロール対象となり、不許可命令ではなくなります。
サイト構築時は全拒否にするほうが良いと思いますが、一度拒否設定したrobots.txtファイルをGoogleに送信すると、1~2日ほどそのファイルを使うようです。したがって、robots.txtを公開に変更してもすぐに反映されない場合があるので注意してください。
その場合、サイトマップの送信をしても下記のように表示されます。
サイトマップにアクセスしようとした際にエラーが発生しました。サイトマップがガイドラインに従っており、指定した場所からアクセスできることを確認してから、再送信してください。
例:robots.txt により URL が制限されています
また、「Fetch as Google」からURLを送信しても下記のように表示されてしまいます。
このページは Googlebot によりダウンロードされた最新の robots.txt ファイルでブロックされているため、この時にクロールできませんでした。最近 robots.txt ファイルを更新した場合は、ファイルが最新の状態になるまで最大 2 日ほどかかる場合があります。robots.txt について詳しくは、こちらのヘルプセンターの記事をご覧ください。
なお、このような表示が出ていても、サイトマップの送信が保留されているだけで、最新の「robots.txt」に(Google側で)更新されればサイトマップの送信が再開されてインデックスが始まります。
サイト構築時は面倒でもディレクトリパスワードをかけたほうがよいでしょう。
指定ディレクトリやファイルを拒否する
Disallow: /trackback
上記のように末尾スラッシュで閉じない記述にするとルート・ディレクトリ直下の「trackback」で始まるディレクトリやファイルが該当します。
拒否するURL例(1)
http://xxxxx.com/trackback/
http://xxxxx.com/trackback.html
http://xxxxx.com/trackback-log/
http://xxxxx.com/trackback-log.html
拒否するURL例(2)
http://xxxxx.com/trackback/xxxx.html
http://xxxxx.com/trackback/xxxx/xxxx.html
「http://xxxxx.com/trackback/」が適用されるので上記も含まれます。
拒否しないURL例
http://xxxxx.com/xxx/trackback/ ※ルート直下ではないから!
http://xxxxx.com/xxx/trackback/xxxx.html
ここが最初の難関です。この解説を間違っているブログが多くあります。
ポイントは「直下のtrackback」が含まれる文字列が対象で、それは「ディレクトリ」も「ファイル」も対象だということです。
Disallow: /trackback/
スラッシュで閉じる場合だと「ルート・ディレクトリ直下の「trackback」ディレクトリ以下すべて」の指定となります。
末尾のスラッシュは「ディレクトリ」であることを示していることに注意が必要で、この場合はファイル名は該当しなくなります。
拒否するURL例
http://xxxxx.com/trackback/
http://xxxxx.com/trackback/xxxx.html
http://xxxxx.com/trackback/xxxx/xxxx.html
拒否しないURL例
http://xxxxx.com/trackback.html
http://xxxxx.com/trackback-log/
http://xxxxx.com/trackback-log.html
Disallow: /index.html
上記のようにすると、「ルート・ディレクトリ直下の「index.html」で始まるディレクトリやファイル名以下すべて」が対象になるので注意してください。
拒否するURL例
http://xxxxx.com/index.html
http://xxxxx.com/index.html/
拒否しないURL例
http://xxxxx.com/trackback.html
http://xxxxx.com/trackback-log/
サイトリニューアル時に旧版の不要ディレクトリをrobots.txtで指定するワザ
サイトリニューアルした場合、それまでのディレクトリ構成と大きく変わる場合があります。
古いページがすでにGoogleにインデックスされている場合、そういったもう使わないディレクトリは検索結果に出てきてもらいたくありません。
この場合、sitemap.xmlで再登録すれば、再インデックス時に削除されるのですが、事前にrobots.txtで古いもう使わないディレクトリを指定しておくと完璧です。
「trackback」や「comments」ページを拒否したい?
どの階層の「trackback」や「comments」を拒否したい場合の例ならば、下記のように書けばよいことになります。
Disallow: /*trackback Disallow: /*comments
この指定は「trackback」や「comments」という文字列が含まれるディレクトリやファイルはどこにあっても拒否という記述です。
同じ指定を5行くらいで書いている解説ブログもあるようですが、文法上でも検証結果でも上記2行だけで問題ありません。
しかし、これは「//osumituki.com/hoge/aaa.html#trackback」といったリンクターゲット(ページ内リンク)には適用されません。
そして、この両者のURLは実際には存在しません。コメント専用ページのURLなんてありません。だけど、リンクターゲットはあったりします。
トラックバックもだいたいの方が使っていません。Googleだって内部ロジックで優先度を下げているはずです。
なので、実際にはこの記述は不要でしょう。
なお、後述しますが「*」を使った指定も複雑怪奇です。
指定したファイルのみ拒否する
Disallow: /index.html$
パターンマッチマッチ記号「$」を使います。
拒否するURL例
http://xxxxx.com/index.html
パターンマッチ記号「$」
「$」がある場合、クローラーはそこが文字列の末尾だと判断して、それ以降の文字列を無視します。
パターンマッチ記号「*」
「*」はワイルドカードです。これはわかりづらいので注意が必要です。
なお、GoogleとYahoo!はサポートしていますが、他の検索ロボットがサポートしているかは未調査です。
Disallow: /trackback*/
拒否するURL例
http://xxxxx.com/trackback/
http://xxxxx.com/trackback_public/
ルート・ディレクトリ直下の「trackbackで始まる」という意味です。
※もちろん該当ディレクトリ以下すべてのサブ・ディレクトリやファイルも該当します。
Disallow: /*trackback/
拒否するURL例(1)
http://xxxxx.com/trackback/
http://xxxxx.com/public_trackback/
「trackbackで終わる」という意味です。この設定がわかりづらいので注意が必要です。
この設定だと「拒否するURL例」には以下も含まれるからです。
拒否するURL例(2)
http://xxxxx.com/yyy/trackback/
http://xxxxx.com/yyy/public_trackback/
つまり、ワイルドカード「*」が前にあるということは「trackback」という文字列の前になにがあってもという意味になりますので、階層が深いところでも該当するからです。
Disallow: /trackback/* Disallow: /trackback/
このような記述は同一とみなされます。
Disallow: /trackback* Disallow: /trackback
このような記述も同一とみなされます。
Disallow: /*trackback* Disallow: /*trackback
このような記述も同一とみなされます。
Disallow: /*trackback*/
「trackback」を含むディレクトリという意味になります。
拒否するURL例
http://xxxxx.com/trackback/
http://xxxxx.com/public_trackback/
http://xxxxx.com/trackback_public/
http://xxxxx.com/yyy/trackback/
http://xxxxx.com/yyy/public_trackback/
http://xxxxx.com/yyy/trackback_public/
http://xxxxx.com/trackback/yyy/
http://xxxxx.com/public_trackback/yyy/
http://xxxxx.com/trackback_public/yyy/
http://xxxxx.com/yyy/trackback/zzz/
http://xxxxx.com/yyy/public_trackback/zzz/
http://xxxxx.com/yyy/trackback_public/zzz/
このように前に「*」がつく場合は要注意です。
Disallow: /*trackback*
「trackback」を含むディレクトリとファイルという意味になります。ひとつ上の例にファイルも加わることになります。
拒否するURL例(抜粋)
http://xxxxx.com/trackback.html
http://xxxxx.com/public_trackback.html
http://xxxxx.com/trackback_public.html
画像ファイルはすべてを拒否する
Disallow: /*.gif$ Disallow: /*.jpg$ Disallow: /*.jpeg$ Disallow: /*.png$
ルート・ディレクトリ以下すべてに存在する画像ファイルはヒットしなくなります。
拒否したディレクトリの中のサブディレクトリ以下すべてを許可する
User-agent: * Allow: /trackback/log/ Disallow: /trackback/
拒否するURL例
http://xxxxx.com/trackback/
「ルート・ディレクトリ直下の「trackback」ディレクトリ以下すべて」
許可するURL例
http://xxxxx.com/trackback/log/
AllowとDisallowの記述順序は先でも後でも無関係です。下記でも同じ動作になります。
User-agent: * Disallow: /trackback/ Allow: /trackback/log/
なぜなら、AllowとDisallowに優先度がないからです。
基本は「書いたものはずっと適用される」のであって、上書きという優先度は存在しないのです。
実際に下記のようにテスト指定して、ウェブマスターツールの「ブロックされた URL」ページにある「//osumituki.com/robots.txt のコンテンツ – 編集して変更をテスト」というテストツールで検証すると、「Disallow」指定したディレクトリは拒否になります。
User-agent: * Allow: / Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/uploads/
結果は「Disallow: /wp-admin/ によってブロックされています。ディレクトリとして検出されました。」と表記はどっちだかわからない日本語が表示されますが、これは拒否されたディレクトリの場合に表示される結果文言で、Disallowで指定した内容がきちんと反映されているのがわかります。これは決して上書きしている拒否しているということではありません。書いたものが適用されているだけなのです。
Allowが優先されるのは、まったく同じディレクトリが許可・拒否された場合のみです。
以下の記述だと許可になります。
User-agent: * Allow: /trackback/ Disallow: /trackback/
SEO解説のブログでは「Allowが優先」と書いているものもありますが、誤解を生む表現です。まったく同じディレクトリ指定であれば「Allow優先」というのが正しい解説になります。
複数のロボットを拒否する
User-agent: Googlebot-Image Disallow: / User-agent: Yahoo-MMCrawler Disallow: /
複数のロボットを拒否する場合はロボットごとに記述が必要というのがルールです。
- ユーザーエージェントのブロックごとに空白行を入れます。
- ユーザーエージェントのブロックの中に空白行は入れません。
ただし、下記のような記述でも「Google」では拒否になります。
User-agent: Googlebot-Image User-agent: Yahoo-MMCrawler Disallow: /
WordPressの「仮想robots.txt」デフォルト設定
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/
WordPressではデフォルトで「仮想robots.txt」が出力されています。
自分で「robots.txt」を設置した場合はそちらが優先されます。
WordPressで「robots.txt」を設定するプラグインを使うと、自分で「仮想robots.txt」を編集できます。その場合、デフォルトの設定も忘れずに記述するようにしてください。
その他注意事項
- 大文字小文字は区別されます。
- 各ロボットの記述まとまり間や「Sitemap:」の前は1行空けます。
- Allow:とDIsallow:で同じ指定をするとAllow:が優先されます。
クロールについての注意事項
「robots.txt」で拒否を指定すると検索結果ページに表示されないという解説と、クローラーを拒否するという解説が混在しています。
実際には「クローラー自体が拒否されて、実質的に検索結果に表示されない」というのが正しい解説になります。したがって、拒否されたページから先のリンクには行かないであろうと推測されます。
つまり、上の階層は拒否しても、その下にある階層は許可するという先ほどの命令だとクロールされないのではないかと推測されます。
「インデックスはさせないけど、リンク先はクロールする」というのはmetaで各ページに指定することができます。
<meta name="robots" content="noindex">
たとえば、カテゴリーはインデックスしないけどリンクはたどれという指定をする場合は、上記をカテゴリーページに組み入れます。WodpressのSEOプラグインでこれが自動でできるものがあります。第一カテゴリーだけはインデックスさせたいという細かい指定までできる「Yoast WordPress SEO」というプラグインもあります。これはWordpressのカテゴリー設定の画面で「Noindex this category:」という項目があるので、インデックスしたい第一カテゴリーは「Always index」にして、それ以外は「Always noindex」にすることで可能です。
こういった細かい指定は「robots.txt」ではなく高性能なプラグインでやるべきでしょう。
検索結果についての注意事項
「robots.txt」をまったく指定しないでGoogleに登録した場合、カテゴリーページばかり登録されているなど「意図しない結果」になることがあります。たとえば、サイトがクロール可能かをチェックする「Fetch as Google」で確認後に「インデックスに送信」を行って検索エンジンに告知する方法だと、以下のような問題があります。
- 指定したURLからリンクをたどってページを取得するので、ブログなどの場合は「Fetch as Google」で入力したURLからリンクしていない記事には到達できない。
- クローラーにはどこがどんなページか分からないので、必ずしも全記事が登録されるとは限らないし、意図しないインデックスページばかり登録される可能性がある。
カテゴリーページ自体は検索エンジンを使っているユーザーにとって意味のないコンテンツだといえます。そして、こういった意味のないコンテンツは検索エンジンから嫌われるとSEO対策では言われます。
検索エンジンのへの登録は「Fetch as Google」ではなく、「サイトマップ」できちんと行うのがベストですが、トップからリンクをたどってこられてカテゴリーが無駄に登録されてしまうとか、ランクの低い間はそれでクロール制限を超えることがあります。
sitemap.xmlとの併用について
Sitemap: //osumituki.com/sitemap.xml
このように指定すれば「sitemap.xml」が存在する場合はコンテンツ構成を検索エンジンのロボットに知らせることができます。この指定は一番最後に記述する必要があります。これは「Sitemap:」命令文が記述された後に「Disallow: /」が記述されると無効になるからですが、そういう指定は普通はしませんね。
あと、コンテンツページからリンクされる「画像」や「リンク先」(例:カテゴリーページ)もロボットはリンクをたどって見にいきますので、必ずしも「sitemap.xml」に記述したものだけが登録されるわけではありません。
「サイトマップ」はクローラーに重要なページを告知するために使うものです。「サイトマップ」には以下のページを含めておくとよいでしょう。
- ホームページ
- 記事
- 固定ページ
Google-botはrobots.txtよりもsitemap.xmlを優先する
これは実に嫌な動きなのですが、robots.txtで「pdf」ディレクトリを拒否しているのに、なぜかGoogleの検索結果から消えないという事がありました。
調べてみると、sitemap.xmlにPDFファイルのリストを掲載しており、そちらが優先されていることが分かりました。
拒否したいディレクトリがある場合、sitemap.xmlには該当ディレクトリのファイルが含まれないようにする必要があります。管理系や顧客専用画面などは、ディレクトリパスワードで保護していないと、こういうことがありえますので注意が必要です。
Fetch as Google か サイトマップ か
基本的に「サイトマップ」で「sitemap.xml」を登録する方法で行うべきなのでしょう。重要なページを宣言することになるからです。
とはいえ、「sitemap.xml」でのみ登録しても、クローラーは「robots.txt」を最初に取得します。その内容によっては余計なページがインデックスされるかもしれません。
基本的には、sitemap.xmlが完璧であれば、サイトマップでの登録申請が一番確実です。
秘密のディレクトリは書かない
「robots.txt」の中に極秘や企業秘密のディレクトリは含めてはいけません。また、顧客専用ページのURLも含めてはいけません。なぜなら、「robots.txt」は誰でも見られる状態だからです。
しかし、リンクをたどって来られるURLなら検索ロボットはやってきます。したがって、「robots.txt」の記述も前方一致をうまく使って書く必要があります。
URL例:http://domain.com/user/himitu/
User-agent: * Disallow: /user/hi
このように、頭だけ指定して「/」を付けない拒否方法をすることになります。
しかし、基本的には非公開のURLはディレクトリパスワードをかけるべきでしょう。
「robots.txt」は検索結果への表示を禁止するものであって、検索エンジンのクロールを拒否する(=ページの中を読ませない)ものではないからです。「robots.txt」でいくら拒否しても読むことはできる上に、ルールに従わないスパイロボットも存在するからです。
「robots.txt」にはなにを指定すればいいのか
「robots.txt」は単純なことしかできない割に分かりづらい部分があります。したがって、絶対に拒否するディレクトリはこれで拒否して無駄なクロールは避けるべきなのでしょう。
また、複雑な指定はよくないといえます。さきほどの上の階層は拒否して、その中の一部階層は許可するという指定は可能でも、クローラーがリンクをたどっていってくれない可能性があります。(サイトマップがあればクロールはされるはずです)
基本的にはコンテンツ関係はクロールは拒否しないで、拒否したいコンテンツ関係ページはmetaで指定するのが確実です。
「robots.txt」で拒否するのは管理系ディレクトリくらいが良いようです。
基本例:一般的な「robots.txt」例
「robots.txt」の設定については注意しないとインデックスされない事態になります。コツは以下のとおりです。
- 拒否したいクローラーは拒否して、それ以外のクローラーは無指定
- WordPressの場合はデフォルトで「/wp-admin/」と「/wp-includes/」は拒否する
- WordPressで画像を拒否するなら「/wp-content/uploads/」を拒否する
- そのほか余計なことはしない
- もしするなら、拒否したいディレクトリのみをピンポイントで指定
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/uploads/ User-agent: Googlebot-Image Disallow: / User-agent: Yahoo-MMCrawler Disallow: / User-agent: psbot Disallow: / User-agent: Megalodon Disallow: / User-agent: Slurp/cat Disallow: / User-agent: Infoseek SideWinder Disallow: / User-agent: FAST-WebCrawler Disallow: / User-agent: ia_archiver Disallow: / User-agent: Baiduspider Disallow: / User-agent: Yetibot Disallow: / User-agent: Teoma Disallow: / #User-agent: Slurp #User-agent: googlebot #User-agent: googlebot-Mobile #User-agent: bingbot #User-agent: MSNBot Sitemap: //osumituki.com/sitemap.xml
この指定だと、カテゴリーページが多いとそちらが先にインデックスされて、無駄にクロールからインデックスさせてしまうことで、記事がインデックスされない事態になります。(実際ににそうなりました)
非推奨:ワードプレスのカテゴリーページだけをブロックする「robots.txt」例
そこで、クロールを許可する検索エンジンに対して「Disallow: /*/*/$」を指定する方法があります。ただし、これはかなり特殊な事例です。
記述上は「親カテゴリー以外のカテゴリーページ(子や孫など)は拒否する」という指定です。カテゴリーに所属する記事自体は拒否していません。
この設定が可能なのは、当ブログでは以下のようにWordpressを設定しているからです。
コンテンツページは「.html」で終わるようにWordpressで見せかけています。
例://osumituki.com/web-front/programs/32.html
設定方法はこちら
また、カテゴリーページのURLではURLに「category/」を含まないようにしています。
さらに、カテゴリーページのURLの末尾には「/」(スラッシュ)が入るようになっています。
例://osumituki.com/web-front/web-design/
設定方法はこちら
しかし、これだとトップからリンクをたどっていってくれません。
そこで「sitemap.xml」にカテゴリーを含めるのですが、カテゴリー優先で登録されてしまうかもしれませんので優先度を指定したりします。しかし、これもクローラーがどこまで重視するかは不明瞭です。
こうなると、各ページごとに厳密にmetaでクロールさせるかインデックスさせるか指定するほうが確実です。そうすれば、「robots.txt」は以下の例のように複雑にする必要はなくなり、確実に拒否するディレクトリだけで済むことになります。
WordPressプラグイン「XML Sitemap Generator for WordPress」では細かいカテゴリー設定はできません。また、「含めないカテゴリー」という指定はあるのですが、カテゴリーページだけではなく所属する記事まで含めないという意味みたいで、カテゴリーページのみを細かく指定する機能はありませんでした。
そこで、さきほどの「Yoast WordPress SEO」というプラグインで事細かく指定するのが一番確実でしょう。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/uploads/ User-agent: Googlebot-Image Disallow: / User-agent: Yahoo-MMCrawler Disallow: / User-agent: psbot Disallow: / User-agent: Megalodon Disallow: / User-agent: Slurp/cat Disallow: / User-agent: Infoseek SideWinder Disallow: / User-agent: FAST-WebCrawler Disallow: / User-agent: ia_archiver Disallow: / User-agent: Baiduspider Disallow: / User-agent: Yetibot Disallow: / User-agent: Teoma Disallow: / User-agent: Slurp Disallow: /*/*/$ User-agent: googlebot Disallow: /*/*/$ User-agent: googlebot-Mobile Disallow: /*/*/$ User-agent: bingbot Disallow: /*/*/$ User-agent: MSNBot Disallow: /*/*/$ Sitemap: //osumituki.com/sitemap.xml
実際には「robots.txt」でこのような複雑な指定は推奨されません。「robots.txt」は単純明快にして、記事へたどる途中のページは拒否せずに、metaでインデックスはさせないけどリンク先はたどるように事細かく指定するのが良いようです。
まとめ:本ブログの「robots.txt」※要プラグイン「Yoast WordPress SEO」
まとめると以下の方針が必要になってきます。
- 基本的に「robots.txt」は強い拒否をする場合に使う
- 「robots.txt」は単純明解にすべき
- 記事に至る途中のページは「robots.txt」で拒否しない
- 確実に拒否する管理系ページは「robots.txt」で拒否する
- カテゴリーページはインデックスされない方が有利
- 拒否したいカテゴリーページはmetaで「noindex」指定する
- WordPressプラグイン「XML Sitemap Generator for WordPress」は使わない
- WordPressプラグイン「Yoast WordPress SEO」の「XML Sitemaps」設定を使う。
- 上記を設定した上でカテゴリーなどは、Wordpressのカテゴリー設定で細かくサイトマップの出力を指定する
- 「robots.txt」に「Yoast WordPress SEO」で出力したサイトマップの場所を指定する
「Yoast WordPress SEO」を使うと、以下の設定画面にある「XML Sitemap」ボタンで細かいサイトマップが一覧表示されます。
必ず、「sitemap.xml」の出力結果は検証したり、ウェブマスターツールの「ブロックされた URL」ページの後半にある「http://domain.com/robots.txt のコンテンツ – 編集して変更をテスト」というフォームにある機能を使って「robots.txt」のテストをするべきでしょう。
本ブログの最終的な「robots.txt」は以下のとおりとなりました。
User-agent: * Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /wp-content/uploads/ User-agent: Googlebot-Image Disallow: / User-agent: Yahoo-MMCrawler Disallow: / User-agent: psbot Disallow: / User-agent: Megalodon Disallow: / User-agent: Slurp/cat Disallow: / User-agent: Infoseek SideWinder Disallow: / User-agent: FAST-WebCrawler Disallow: / User-agent: ia_archiver Disallow: / User-agent: Baiduspider Disallow: / User-agent: Yetibot Disallow: / User-agent: Teoma Disallow: / #User-agent: Slurp #User-agent: googlebot #User-agent: googlebot-Mobile #User-agent: bingbot #User-agent: MSNBot Sitemap: //osumituki.com/post-sitemap.xml Sitemap: //osumituki.com/page-sitemap.xml Sitemap: //osumituki.com/category-sitemap.xml
【補足】ウェブマスターツールの注意点
Googleのウェブマスターツールを使って、sitemap.xmlなどをGoogleに送信することができますが、ごく稀に以下のような失敗例があります。
「www.XXXXX.com」でGoogleにインデックスされているのに
「xxxxx.com」をウェブマスターツールで操作していた。
これって、どちらかで設定すれば、両方に反映されるような気がしますが、そうなりません。
もし、これをやってしまうと、リニューアル時にサイト登録を行ったのに、古いページがGoogleの検索結果から消えないと状況が発生することになりますので注意が必要です。
参考URL
最新記事はトップページで!
京都発・地方が盛り上がるグルメや観光に撮影ロケ地の話題を提供!