検討

前回の続き。数日前に公開した作品のステキの率が低い件です。

疑問:今回の作品についてステキの率が低いと思っているけれど、それは本当に低いのか。

上記の疑問について考えていきます。まず、ステキ/閲覧数(ステキ率)の分布を見てみます。

x軸:nv=ステキ数/閲覧数、y軸:頻度。

 

大体、正規分布

母集団が正規分布だと仮定できるので区間推定をしてみます。

区間推定

今まで公開した作品について、閲覧数とステキの関係を散布図にして回帰直線を引きました。グレーの部分は95%信頼区間です。

x軸:閲覧数、y軸:ステキ数

95%信頼区間というのは、「私の平均ステキ率がその区間にあると95%信頼できる」区間です。

この信頼区間の意味が難しくて、私は今まで2回くらい理解したと思ったんですけど、今はもうわからなくなっています。もう1回理解して説明を書きます。

95%信頼区間とは

  • 私の平均ステキ率に真の値(固定値)があるとして、n個の標本を100組抽出すると、100本の信頼区間が得られる。そのうち、95本が真の値を含むだろうという意味。

ステキ率が3/55(今現在3/70)で少ない気がするって言ってたんですが、見た感じ95%信頼区間内に入りそうです。

結論

今回の作品のステキ率は特に低いとは言えない。

これ、全然的外れなことをしている可能性もあります。平均ステキ率の真の値ってなにって話もあります。自分がなにをしているのかよくわかりません。

統計、なにがなんだかわかりません。理解できません。

 

前回、統計的仮説検定で有意差を調べたりしたらいいのかな?と思ってたんですが、私は統計的仮説検定のことを理解していませんでした。

とりあえず散布図を書いてみたところ、今回のステキ率は特に低くないと思ったのでこれで結論とします。

このデータで統計的仮説検定をするなら、AジャンルとBジャンルのステキ率の間には差があるかとかでやったらいいのかもしれません。t検定でいいのかな。

計算するのは簡単だけど、私は分布が全然わからないからなぁ。

t検定とt分布の関係を理解できていません。自分がなにをしているか良くわからなくなります。わけがわからん。勉強します。

 

おわり