Kodama's home / tips.

Google からのページ脱落を観察する

10月末になって Google の登録から消えてしまうページがでています.

一瞬 "Google八分" というやつかと...

しかし, ちょっと違っている様です.

...と云う事で, せっかくなので観察してみました.

集計の手法

  1. HTML ファイルの Google PageRank を調べる. Googleに登録されていないページはランクが数値(0〜10) ではなく "NO_INDEX" となることに注意.
    ls *html | xargs -l1 -i gprank.rb -u www.math.kobe-u.ac.jp/~kodama/\{\} > PageRank.txt
    
  2. ヒストグラムを見る. Googleに登録されていないページ(NO_INDEX) は -1 の扱いとした.
    ruby -rhistogram -nae'BEGIN{H=Histogram.new(-1,10,1)};END{H.report};H.push(/NO_/?-1:$F[1].to_i)' < PageRank.txt
    

脱落ページ数の推移

以下の結果から -1 となった(Google の登録から落ちている)ページ数の推移を抽出してみる. なんだか心配したわりには, 12月に入ってある程度落ち着いてしまった. 登録されないページが 10 以上できてしまったが, この程度なら気にしない.
2005-10-31:----+----+----+----+----+----+----+----+----+----+----+ 55
2005-11-04:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 77
2005-11-07:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 87
2005-11-08:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 90
2005-11-09:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--- 93
2005-11-14:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+---- 94
2005-11-21:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 95
2005-11-25:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--- 83
2005-11-29:----+----+----+----+----+----+----+----+----+----+----+----+----+---- 69
2005-12-02:----+----+----+----+--- 23
2005-12-05:----+----+-- 12
2005-12-08:----+----+- 11
2005-12-12:----+----+--- 13
2005-12-14:----+----+----+- 16
2005-12-16:----+----+----+ 15
2005-12-19:----+----+---- 14

2005-10-31以前

編集作業用でリンクしていないものと, 新しい数個を除けば Google でページランクがついていた. ランク5が 5〜6個, 残りは ランク 4 と 3 が同数程度だったと思う.

2005-10-31

いつの時点から脱落が始まったかは不明だが, 10月下旬にフラクタル解析関連のページを 5つ書きたした. "最近の文書" の項と関連項目の項の両方にリンクを足したので 文書中のリンク数が10個(ファイル数では 5個)増えた事になる.

$ grep href tips.html |wc
    121     423   10720           tips.thml からのリンク数が 121個.
$ grep href tips.html |sort|uniq|wc
    102     356    8892           重複を除くと 102個のリンクがある.
$ ls *html |wc
    108     108    2322           HTMLファイルの総数は 108個.
$ ls tips*html |wc
     97      97    2139           tips*.html のファイルは 97個.

ヒストグラム:108個のうち 55個が Google から脱落している.

-1-.:----+----+----+----+----+----+----+----+----+----+----+ 55
 0-.:----+ 5
 1-.: 0
 2-.: 0
 3-.:----+----+----+----+----+---- 29
 4-.:----+----+----+-- 17
 5-.:-- 2
number: 108

2005-11-04

-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 77
 0-.:--- 3
 1-.: 0
 2-.: 0
 3-.:----+----+----+- 16
 4-.:----+----+ 10
 5-.:-- 2
number: 108

2005-11-07

109個のうち 87個が脱落している. 1個は新たに加わったこのページなので, 実質は 108 個のうち 86個が脱落.
-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+-- 87
 0-.:--- 3
 1-.: 0
 2-.: 0
 3-.:----+--- 8
 4-.:----+---- 9
 5-.:-- 2
number: 109

2005-11-08

-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 90
 0-.:-- 2
 1-.: 0
 2-.: 0
 3-.:----+--- 8
 4-.:----+-- 7
 5-.:-- 2
number: 109

2005-11-09

HTMLファイルを1個追加. 順調に(?)ページ落ちしてます.
-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--- 93
 0-.:-- 2
 1-.: 0
 2-.: 0
 3-.:---- 4
 4-.:----+---- 9
 5-.:-- 2
number: 110

2005-11-14

-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+---- 94
 0-.:-- 2
 1-.: 0
 2-.: 0
 3-.:-- 2
 4-.:----+--- 8
 5-.:---- 4
number: 110

2005-11-21

個数の分布は落ち着いて見えるが, 個々のファイルについては出入りがある.
-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 95
 0-.:- 1
 1-.: 0
 2-.: 0
 3-.:---- 4
 4-.:----+---- 9
 5-.:- 1
number: 110

2005-11-25

新展開. tips.html が落ちて, 他が多少戻って来た. tips.html の出入りで発振するかも.(ワクワク)
それにしても, 通常なら, 新たなページはとりあえず ランク 0 に入ったはず. これを見ると, ランク 3〜4 に入っている. どういうこと?
-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+--- 83
 0-.: 0
 1-.: 0
 2-.: 0
 3-.:----+----+-- 12
 4-.:----+----+----+ 15
number: 110

2005-11-29

やはり, tips.html が落ちたのが利いているようです. 他サイトからのリンクがあるらしいページがじわじわと回復しています.
-1-.:----+----+----+----+----+----+----+----+----+----+----+----+----+---- 69
 0-.: 0
 1-.: 0
 2-.: 0
 3-.:----+----+----+ 15
 4-.:----+----+----+----+----+ 25
 5-.:-- 2
number: 111

2005-12-02

かなり回復した一方で, ランク5に tips.html が戻って来ました. 次の展開が楽しみです.
-1-.:----+----+----+----+--- 23
 0-.:----+--- 8
 1-.: 0
 2-.: 0
 3-.:----+----+----+----+----+----+----+----+----+----+----+--- 58
 4-.:----+----+----+----+- 21
 5-.:- 1
number: 111

2005-12-05

PageRank を引けるページ数 99(=8+67+22+2=111-12).
-1-.:----+----+-- 12
 0-.:----+--- 8
 1-.: 0
 2-.: 0
 3-.:----+----+----+----+----+----+----+----+----+----+----+----+----+-- 67
 4-.:----+----+----+----+-- 22
 5-.:-- 2
number: 111

2005-12-12

PageRank を引けるページ数 98(=9+25+58+6=111-13). なんだか, 普通に回復しているような気もします.
-1-.:----+----+--- 13
 0-.:----+---- 9
 1-.: 0
 2-.: 0
 3-.:----+----+----+----+----+ 25
 4-.:----+----+----+----+----+----+----+----+----+----+----+--- 58
 5-.:----+- 6
number: 111

2006-04-07

久しぶりに調べてみた....以前のランク落ちは一体何だったのだ?
-1-.:-- 2
 0-.:- 1
 1-.: 0
 2-.: 0
 3-.:----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+----+ 80
 4-.:----+----+----+----+----+----+- 31
 5-.:- 1
number: 115

まとめ

  1. 原因は, tips.html のリンクが多くなり過ぎたためと思われる. Google PageRankについての文書 で 1つの HTML 文書に対して Google が正常に扱えるリンクは 100個程度が限界と書いた. ここで示したように tips.html 文書のリンクはそれを越えている. 問題となるのが, 重複を含んだ延べリンク数なのか, 重複を除いたリンク数なのかは不明.
  2. 限界から溢れた数だけではなく, リンクされているページ全体が影響を受け, まとまった数の脱落がおこる.
    他サイトのリンク先も影響を受けるのだろうか? いや, tips.html にはそういうリンクは無いが...
  3. tips.html からしかリンクが無いページだけでなく, 他所からのリンクがあるページでも脱落する.
  4. PageRank 5 でしぶとく残っている 2つは, index.html と今回の原因となった tips.html. 手動で Google に登録してあったのが, 残った原因と思われる.
    index.html が落ちた.(2005-11-21)
    tips.html が落ちた.(2005-11-25)
  5. 登録が残っているページについても, PageRank が下がってきている.
  6. Google から落ちると存在しないも同然? PageRank を参照できない HTML ページは, Google の検索にもかからない. 他所からのリンクを辿る他には見付けることができなくなる. ページアクセス が減ってきている.
    (2005-11-09) ページアクセスがまた増えちゃってるじゃないですか. 何故.
  7. HTML 文書のリンクは無難な数にまとめましょう.

Kodama's home / tips.