Next: Functions and Variables for data manipulation, Previous: descriptive, Up: descriptive [Contents][Index]
パッケージdescriptive
は記述統計計算とグラフ作成を行うための関数一式を含みます。
ソースコードと一緒にMaximaツリーに3つのデータセットがあります:
pidigits.data
, wind.data
, biomed.data
パッケージdescriptive
の関数の参考文献として、
どんな統計マニュアルでも使うことができます。
コメント、バグ、提案は、 ’mario AT edu DOT xunta DOT es’にコンタクトしてください。
以下は、
descriptive
の中の記述関数が
引数やリスト、行列の性質に依存して如何に機能するかを示す
簡単な例です。
(%i1) load ("descriptive")$
(%i2) /* univariate sample */ mean ([a, b, c]); c + b + a (%o2) --------- 3
(%i3) matrix ([a, b], [c, d], [e, f]); [ a b ] [ ] (%o3) [ c d ] [ ] [ e f ]
(%i4) /* multivariate sample */ mean (%); e + c + a f + d + b (%o4) [---------, ---------] 3 3
多変数標本では、平均は列それぞれに関して計算されることに注意してください。
異なるサイズかもしれない複数の標本の場合、
Maxima関数map
が標本それぞれに対して望みの結果を得るのに使うことができます。
(%i1) load ("descriptive")$
(%i2) map (mean, [[a, b, c], [d, e]]); c + b + a e + d (%o2) [---------, -----] 3 2
この場合、サイズ3と2の2つの標本がリストに格納されました。
1変数標本は以下のようにリストに格納されなければいけません。
(%i1) s1 : [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]; (%o1) [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
多変数標本は以下のように行列に格納されなければいけません。
(%i1) s2 : matrix ([13.17, 9.29], [14.71, 16.88], [18.50, 16.88], [10.58, 6.63], [13.33, 13.25], [13.21, 8.12]); [ 13.17 9.29 ] [ ] [ 14.71 16.88 ] [ ] [ 18.5 16.88 ] (%o1) [ ] [ 10.58 6.63 ] [ ] [ 13.33 13.25 ] [ ] [ 13.21 8.12 ]
この場合、 列の数は確率変数次元に等しく、行の数はサプルのサイズです。
データは手で入力することができますが、
大きな標本は普通プレインテキストファイルの中に格納されています。
例えば、ファイルpidigits.data
は
数%pi
の最初の100桁を含みます:
3 1 4 1 5 9 2 6 5 3 ...
Maximaでこれらの桁をロードするためには、
(%i1) s1 : read_list (file_search ("pidigits.data"))$
(%i2) length (s1); (%o2) 100
他方、ファイルwind.data
は
アイルランド共和国の5つの気象台の毎日の平均風速を含みます。
(これは12の気象台で取得されたデータセットの一部です。
元のファイルはStatLib Data Repositoryから無料でダウンロードでき、
その分析はHaslett, J., Raftery, A. E. (1989) Space-time Modelling with Long-memory Dependence: Assessing Ireland’s Wind Power Resource, with Discussion. Applied Statistics 38, 1-50
で議論されてます。)
以下ではデータをロードします:
(%i1) s2 : read_matrix (file_search ("wind.data"))$
(%i2) length (s2); (%o2) 100
(%i3) s2 [%]; /* last record */ (%o3) [3.58, 6.0, 4.58, 7.62, 11.25]
いくつかの標本は数値でないデータを含みます。
例えば、ファイルbiomed.data
(StatLib Data Repositoryからダウンロードされた別のもっと大きなものの一部)は、
異なる年齢の、2つのグループA
とB
の患者から測定された4つの血圧を含みます。
(%i1) s3 : read_matrix (file_search ("biomed.data"))$
(%i2) length (s3); (%o2) 100
(%i3) s3 [1]; /* first record */ (%o3) [A, 30, 167.0, 89.0, 25.6, 364]
最初の個人はグループA
に属し、30歳で、血圧は167.0, 89.0, 25.6 and 364でした。
カテゴリデータを扱う時には気をつけなければいけません。
次の例では、シンボルa
が以前のある時点で値に割り当てられ、
その後、カテゴリ値a
を持つ標本が取られます。
(%i1) a : 1$
(%i2) matrix ([a, 3], [b, 5]); [ 1 3 ] (%o2) [ ] [ b 5 ]
Next: Functions and Variables for data manipulation, Previous: descriptive, Up: descriptive [Contents][Index]