標本を度数分布表に落とし込み、グラフにすることでその大まかな傾向が見えてきたと思います。
ではさらに、分析を行うために度数分布表の特色を数値で見ることにしましょう。
そこで、一般的に用いられるのが「平均」「分散」「標準偏差」ですね。
ということで、この三つはどんな意味があるかを説明して、さらにpythonを使って、実際に計算してみましょう。
平均値について
平均値は一般的に、収集されたデータの代表値として使われます。
集めたデータが100あったとして、そのすべてのデータを一つ一つ見て、特徴をとらえようとするよりも、そのデータの平均値を見たほうが、データの全体像をつかみやすいです。
平均値と同じように扱われる値としてあるのが期待値で「未来に適用できる平均値」という扱いになります。
例えば、川で魚を10匹釣ったとしてその平均値が5センチとすると、次に釣れる魚の大きさも約5センチくらいということが、予測できます。
平均値の数式の解説
平均値の求め方は皆さんわかっていると思いますが、その数式は以下のようになります。
数式に出てくる記号を一つ一つ説明してみましょう。
まず の意味は平均値であり、
はデータの個数、各データは
で表し、
の右下の
が何番目なのかを表します。
例えば、 3, 5, 4, 1, 7 というデータがあったとしします。
普通に平均値を計算すれば、以下のように計算できます。
これを数式に当てはめてみると、データ個数 は
になります。
そして、,
, …
ですね。
なので、
と表せます。
ここではデータ個数が5個しかないので一つずつ足すことができますが、データの数が1万など膨大な数の場合、いちいち1万回足すという記述ができないので記号 を使います。
この意味はエクセルなどでもおなじみの、合計するという意味ですね。
例えば1番目の値から 番目の値を足す際には以下の式で表しす。
これを で割ると、以下の式のように平均が求められるというわけです。
の使い方
この の使い方ですが、上下の数値を変えることで、足し算の範囲を設定できます。
の場合、1番目から5番目の値を足す場合は、以下のように
、
として、
2番目から4番目を値を足す場合は、
3番目から最後までの値を足す場合は、
となります。
Python で平均値を求める
Pythonを使って平均値を求めてみましょう。
import numpy as np # 数値計算ライブラリ numpyをインポート average = np.array([3,5,4,1,7]) # array にデータを格納 average array([3, 5, 4, 1, 7])
データの合計値を求める。
np.sum(average) # 合計値を求める関数
20
データの数を数える。
len(average) # データの数を数えるlen()関数
5
平均値を求めるプログラムを書く。
N = len(average) # データの個数を定義
sum_average = np.sum(average) # データの合計値を求める
mean = sum_average/N # データの合計をデータの個数で割る
mean
4.00
実はこんな面倒なプログラムを書かなくても、np.mean()で平均が求められます。
np.mean(average) # 平均値を求めるプログラム
4.00
関連記事


コメント