Kodama's home / tips.

ファイルサイズの分布(part2)

前回は /usr/bin のファイルサイズを観察し, フラクタル的に分布することを確かめた.

今回は, WWW ページ tips*.html のサイズをしらべて, ファイルサイズがフラクタル的では __ない__ 例を見る.

いくつかのグラフを作成するが, その意味の詳細については省略する. データ列を分析する手法としては, フラクタル解析や時系列解析などのテキストを読むと良い.

  1. スクリプト
  2. 順位-サイズのグラフ
  3. 順位-サイズの片対数グラフ
  4. 順位-サイズの両対数グラフ
  5. まとめ. ファイルサイズのモデル

スクリプト

以下のようにして, データ列からグラフを作る. 大きさは 1byte 単位.
ls -ldS public_html/tips*html | gawk '{print $5}' | gnuplot gplot.txt > disk-use.png

以下で, gnuplot に与えるコマンドファイル gplot.txt を変えて様々なグラフを作る.

順位-サイズのグラフ

まずそのままグラフにしてみる.

gnuplot のコマンドファイル(gplot.txt)

set terminal png
plot "< cat" using ($0+1):($1) # linear-linear
注. $0 が行番号. $1 は 第1フィールド.

結果(図1)

まず, 線形なグラフで様子を見る.
Fig.1. distribution of file size

順位-サイズの片対数グラフ

gnuplot のコマンドファイル(gplot.txt)

set terminal png
set logscale y; plot "< cat" using ($0+1):($1) # y=a b^x # exponent

結果(図2)

ほぼ直線的なグラフが得られた. ファイル サイズは, 指数分布 または 幾何分布 すると思われる. Fig.2. distribution of file size

順位-サイズの両対数グラフ

比較のため, 両対数グラフも見る.

gnuplot のコマンドファイル(gplot.txt)

set terminal png
set logscale xy; plot "< cat" using ($0+1):($1) # log-log

結果(図3)

これよりも, 図2 の方が直線的なので, フラクタル的な巾分布よりは指数分布と解釈する方が良いらしい.
Fig.3. distribution of file size

まとめ. またまた, __インチキ__ なモデル

ファイル サイズは, 指数分布または幾何分布すると思われる.

指数分布/幾何分布になったと云うのは, tipsのページが場当たり的に書いたメモの集積だからだ. つまり, どこで文書を終えるかという決定が, ポアソン分布またはパスカル分布にしたがって(...というか成行きにまかせて)なされているということ.

もしも, 一定の長さの文書(毎回 1000文字前後とか)を目指して各ページを書いていたら, ガウス分布になっていたはず.

おや? 前回 は, ファイルサイズはフラクタル的に巾分布する,と云っていたのでは?

前回とは違い, 似た内容をよせ集める,と云うような凝集を [おこしていない] のが, 違いが出た理由と思われる.


Kodama's home / tips.