最近Googleでこのブログの記事が検索ヒットしないと思った件

暇なので・・・・なんだか最近書いた自分の記事をGoogleで検索してみたのですが、ヒットしない・・・・
単純に『たーさま』で検索するとこのブログは先頭に表示されるのですが、タイトルの下に表示される概要が3月中旬のころのまま。

うーむ。
別に広告とか一切出していないこのブログは、完全に趣味の世界での運用であるので、お金儲けをしている人々のように目の色を変える必要はないのですが、技術的興味から調査開始。

Google側でどのように認識されているのかな？　以前ちょっとだけ触って完全放置プレーの『Googleアナリティクス』は・・・・サイトに訪れた人の行動を解析するツールであって、サイトを訪れる前の部分は関係ないみたい。

https://…/2017/08/15/ はてなカウンター廃止なので、Googleアナリティクスを使ってみよう

もう一つの『Googleサーチコンソール』がサイトに訪れる前の部分を操作するツールなのですが、以前一度起動した際に『独自ドメイン』でないと使用できないとかで、コレも放置プレー・・・・

しかし今開いてみたら、このブログのような共有ドメインで一定のURL配下にのみ所有権を持っている場合でも使用可能なように機能更新されていたので、早速登録してみました。

・Googleサーチコンソール

すると・・・・Google側で認識しているページの総数が3,169ですって。私の記事は5,800くらいあるはずなのに・・・・なにかあるぞ！？

このツール、Googleクローラー（Webを巡って情報を集めるプログラム。）がいつ・どんな情報を集めたのか、あるいはエラーで集めなかったのかといった事後情報を確認したり、あるいは『このページをクロールして』とリクエストを出せるみたい。
なになに、それでは情報の分析をしてみよう。

・ガバレッジ・・・・Googleクロールの結果

おやっ、除外ページが5,200もあるぞ！

その除外ページの詳細も確認することができます。なになに・・・・

・除外ページの詳細

クロールされていながらインデックス（Googleの検索結果の元となるデータ）に登録されていないのが4,006！？
どういうことだ？

どのURLが該当するのかまで確認可能。すげぇなぁGoogle。
詳しく調べていくと・・・・『重複している』と判断された場合に除外される模様。
例えば日記一つごとのURLは『//tarsama.hatenadiary.com/entry/YYYYMMDD』形式となることが多いのですが、例えばその日一日を俯瞰する『//tarsama.hatenadiary.com/entries/YYYY/MM/DD/』とか、月を俯瞰するとか、カテゴリー一覧とかのページは同じ記事を表示しているだけなので除外するというわけか。

昔のクローラーは、とにかくリンクをたどっていくだけというパターンでしたが、今は中身の重複までチェックするのか・・・・
そして気になるデータを発見。