「ステキ率=ステキ数/閲覧数」です。
統計的仮説検定をします。
「Aさんの作品のステキ率(平均10%)と、私の作品のステキ率(平均8%)に差はあるのか」を検定したいと思います。
※ Aさんは実際には存在しません。今回、架空のデータを作って検定します。
8%と10%を比較したら当然差があるだろと思われるかもしれませんが、この平均は一部の作品のデータから出した平均値なので、母集団(全ての作品のデータ、これから作られる作品も含む)からの偶然変動に過ぎない場合もあります。
それではやっていきます。
私の標本データ
まず、これが私の作品のステキ率のデータです。これは私の作品群(母集団)から無作為に抽出した標本データと言えます。
Aさんの標本データ
これと比較するために、架空のAさんのステキ率のデータを作ります。
Rで正規分布に従った乱数を生成するrnorm関数を使って、平均0.1、標準偏差を私のデータの標準偏差と同じに設定して、20個の乱数を作りました。
これをAさんの作品群(母集団)から無作為に抽出した標本データとします。
参考までに、以下、今作った架空のAさんのステキ率のヒストグラムと平均値。
この2つの標本データを比較します。
2つのデータの母集団が正規分布に従うと仮定します。(ここらへんよくわからん。正規分布に従うと仮定していい? 事前に母集団が正規分布に従うかどうかの正規性の検定が必要かも。今回は正規分布に従うとします)
今回の場合、Aさんと私は別人なので対応のないデータになります。
また、Aさんと私の標本の母集団の分散が等しいかどうかはわからないので、Welchのt検定をやります。
※ Aさんの標本データは今回ランダムで作ったものなので分散が私の標本データと一緒ですが、実際に自分以外の人間のデータがあった場合、母集団の分散は不明です。
仮説を設定します。
仮説
帰無仮説「Aさんの作品のステキ率の母平均と私の作品のステキ率の母平均には差がない」
対立仮説「差がある」
とします。母平均とは母集団の平均のことです。
有意水準(仮説を棄却する確率)は0.05にします。差の有無を確認したいので両側検定にします。
「p-value = 0.1019」という結果になりました。 0.05よりも大きいです。p値とは統計的仮説検定において帰無仮説が成立する確率のことです。
p>0.05 なので帰無仮説を棄却できません。
結論
Aさんの作品全てのステキ率の平均と私の作品全てのステキ率の平均に差があるとは言えない。
これ、実はAさんのデータをランダムで作り直すと結果が変わるんですよ。
帰無仮説「差がない」を棄却できる時もあります。ランダム。
実際の閲覧数とステキ数も状況によって結構変わるじゃないですか。ランダム。
ステキ率、ちょっとの差なら人と比べても意味なさそう。
よい感じの結論が出ました。
私の考え方が間違っていなければの話だけど。
検定、自分の持ってるデータが一体どういうものなのかがわからなくて難しいなと思いました。正規分布じゃないデータだったら、またなんか違うんでしょう?
難しいんだよね。色んな分布のデータがあるじゃん。勉強します。
あと、数学的な意味の「たかだか」を見かけるとちょっと面白い気持ちになります。
統計の勉強になった気がします。合ってるかわかんないけど。
数字に捉われて辛くなってしまう人は、数字をこねくり回すと色々考えるのが面倒になっていいかもしれません。
あと、これは全部google colaboratoryでランタイムのタイプをRにして実行しました。なんのソフトもインストールせず、ブラウザでRを実行できて便利。
おわり