信頼区間

1個前の記事でわからなかった件、回帰分析と区間推定は別物なのに、私がごっちゃにしているような気がします。

まじでよくわからん。本片手にweb検索したりもして色々読んでるけど、全然わからないまま脳がフリーズ。t検定にも95%信頼区間あるじゃん? この世の予測には全て信頼区間があるのか?

とりあえず、ステキ率の平均の95%信頼区間と、ステキ数(目的変数)と閲覧数(説明変数)の回帰直線の95%信頼区間は別物。

私が考えるべきものは一体何なのか。

前回、回帰直線の95%信頼区間を求めたので、今回はステキ率の平均の95%信頼区間について考えます。

ステキ率の平均の95%信頼区間

今回の私のデータは、私の今後の可能性を含む母集団(私の書く小説全て)からの無作為標本なので、母集団の平均と標準偏差は未知です。標本数は32で、30以上なので大標本として母集団分布を正規分布と考えてもよさそうですが、今回はt分布として計算します。

Rで計算しました。

結論

母集団のステキ率の平均μは、0.071≦μ≦0.096の間にあると95%信頼できる。

 

計算してわかったんだけど、母集団のステキ率の平均の信頼区間求めても1作品の平均ステキ率が妥当かどうかはわからないですね。

私の知りたいことは、回帰直線の予測区間な気がしてきました。

予測区間(よそくくかん)とは統計学用語で、母集団を仮定した上で、将来観察されるであろう標本値(現在は測定できない)に対して「どの範囲にあると予測されるか」を示すものである。

Wikipediaより 

予測区間を求めます。Rで描画。

赤い点線が95%予測区間です。

今後の作品のステキ数と閲覧数をプロットしたら、沢山の点の95%は赤い点線の中に入るだろうと予測できる区間ってことでよいのでしょうか。

予測区間の95%はどういう風に考えればよいんだろう。わからん。手元に予測区間について書いた本がありません。今後勉強します。

 

統計的に見て、今回のステキ率、全然低くないですね。

このグラフ見たらマイナスでもおかしくないんだなって思いました。

次回、このデータで無理やり統計的仮説検定をやるかもしれません。