数1Aのデータの分析でなぜ数Bの確率分布の標準化の話がそんなに出るのか。

松谷です。

センター試験のデータの分析という分野の中で、解せないなと思う部分があります。

それは、過去に2回くらい標準化の話がでているところです。明らかに知識がある方が圧倒的に有利な問題です。

知識がある方が有利な問題があるのは当たり前ですが、問題なのはそれがほとんどの生徒がとっていない数Bの確率分布と統計的な推測の分野で習う知識だということなんですね。

もちろん、データの分析の範囲の知識しかなくてもなんとか定義や変量の変換の知識をこねくり回して解けますから、出題不備ではないですが、なんとも言えない気分にはなります。

うーん。

標準化というのは、

(x-xバー)/s

7AE37221-2C77-491C-9707-428B34421285

という変換のことで、xバーはxの平均、sはxの標準偏差のことです。

この標準化を行うと、

平均が0、標準偏差が1に変換されます。

こうすると、何が良いかって散らばり具合が違ったり平均が違ったりするデータに対しても、比較することができるようになるんですね。

たとえば国語は平均60点のなか、自分は65点だ。55点から65点にかなりぐちゃって固まってる。

算数は平均30点のなかで、自分は60点だ。100点の人から0点の人までものすごくばらけてる。

はたして、算数と国語はどちらの成績がいい感じなのか？とかいったりするのがある程度判断できるんですね。

特に、うまい具合にテストをつくると、分布が平均付近が1番高くて左右対称の正規分布に近くなりますので、そんなときに、データを標準化すると、分布が標準正規分布というものに従うことになります。

そして、この標準正規分布というのはものすご性質が調べ尽くされていて、

データが平均ゼロからプラスマイナス1以内に約68%、プラスマイナス2以内に約95%あるとかいう感じで調べ尽くされているんですね。

ただ、平均0もなんか味気ないし、マイナスになるなもいやだし、データが小さい数字ばっかりになるのもしょうもないなということで、

50+10✖️(x-xバー)/s

というように定義したのが偏差値というものでしたね。

こうすりゃ、平均が50、標準偏差が10になりますしね。先ほどの標準正規分布でのプラスマイナス1以内のというのが偏差値40から60に相当し、プラスマイナス2以内というのが偏差値30から70に相当します。

まあ、なんかね。

こんなしょうもない知識で差がつくのは嫌なのでね。一応書いておきました。

生徒が読んでないのは知ってますけどね。。

一応授業の合間にちろっとしゃべったのでいいですが。