Kodama's home / tips.
前回は /usr/bin のファイルサイズを観察し, フラクタル的に分布することを確かめた.
今回は, WWW ページ tips*.html のサイズをしらべて, ファイルサイズがフラクタル的では __ない__ 例を見る.
いくつかのグラフを作成するが, その意味の詳細については省略する. データ列を分析する手法としては, フラクタル解析や時系列解析などのテキストを読むと良い.
ls -ldS public_html/tips*html | gawk '{print $5}' | gnuplot gplot.txt > disk-use.png
以下で, gnuplot に与えるコマンドファイル gplot.txt を変えて様々なグラフを作る.
set terminal png plot "< cat" using ($0+1):($1) # linear-linear注. $0 が行番号. $1 は 第1フィールド.
set terminal png set logscale y; plot "< cat" using ($0+1):($1) # y=a b^x # exponent
set terminal png set logscale xy; plot "< cat" using ($0+1):($1) # log-log
指数分布/幾何分布になったと云うのは, tipsのページが場当たり的に書いたメモの集積だからだ. つまり, どこで文書を終えるかという決定が, ポアソン分布またはパスカル分布にしたがって(...というか成行きにまかせて)なされているということ.
もしも, 一定の長さの文書(毎回 1000文字前後とか)を目指して各ページを書いていたら, ガウス分布になっていたはず.
おや? 前回 は, ファイルサイズはフラクタル的に巾分布する,と云っていたのでは?
前回とは違い, 似た内容をよせ集める,と云うような凝集を [おこしていない] のが, 違いが出た理由と思われる.
Kodama's home / tips.