今回は本ブログの2021年9月27日から2021年11月2日までの記事36本の文字数の解析結果を報告する.その目的は記事文字数の分布や推移の様子を明らかにすることである.
Pythonを用いて各記事の文字数をカウントし,Pythonライブラリであるmatplotlibのpyplotでヒストグラムと折れ線グラフを作成した.
結果を図1と図2に示す.まず,図1は各記事の文字数の分布を表したヒストグラムである.大部分の記事の文字数は400文字から800文字の区間に分布していた.一方,一部の記事は900文字以上であった.
次に,図2は文字数の推移を表した折れ線グラフである.記事番号が若いほど初期の記事である.初期は文字数が400文字近くであるがだんだんと増加し,最近では最高で1200文字を超えるほどになっていた.しかし,文字数は単調に増加するわけではなく,文字数が比較的多い日と少ない日で振動しながら増加していた.さらに局所的なピークは1日あるいは2日続くだけであり,その翌日にはすぐ文字数が低下していた.
以上の結果を次のように考察した.まず文字数分布には,記事文字数を400文字以上とするというルールが反映されている.書きにくいテーマを選んだ日は400文字を超えた段階ですぐに記事を書き終えるため,400文字付近の記事が多いと考えられる.その一方,書きやすいテーマを選んだ日は1000文字前後まで苦もなく書き続けられていたのであろう.この分布は理論的にはどんな分布であるのかを考察するのは今後の課題としたい.
記事文字数の推移からは,執筆者が徐々に執筆作業に慣れていっていることが読み取れる.すなわち,執筆経験を積むにつれて文字数を増やしていくことがだんだんと苦痛ではなくなってきている.ただ,書きやすいテーマを選んだ日とそうでない日の文字数の差は依然としてあり,それが振動傾向に表れているのだろう.
結論として,文字数解析の結果,記事執筆を重ねるにつれて文字数がだんだんと増加している傾向と,文字数が多い日と少ない日の間の振動傾向を認めることができた.今後,記事数がある程度増えた時点でさらなる解析を行いたい.さらに今回は文字数だけに着目したが,今後は自然言語処理により記事の内容の解析も行いたい.