Maxima branch_5_47_base_7_g39559bd_dirty Manual: Introduction to descriptive

パッケージdescriptiveは記述統計計算とグラフ作成を行うための関数一式を含みます。ソースコードと一緒にMaximaツリーに３つのデータセットがあります: pidigits.data, wind.data, biomed.data

パッケージdescriptiveの関数の参考文献として、どんな統計マニュアルでも使うことができます。

コメント、バグ、提案は、 ’mario AT edu DOT xunta DOT es’にコンタクトしてください。

以下は、 descriptiveの中の記述関数が引数やリスト、行列の性質に依存して如何に機能するかを示す簡単な例です。

(%i1) load ("descriptive")$

(%i2) /* univariate sample */   mean ([a, b, c]);
                            c + b + a
(%o2)                       ---------
                                3

(%i3) matrix ([a, b], [c, d], [e, f]);
                            [ a  b ]
                            [      ]
(%o3)                       [ c  d ]
                            [      ]
                            [ e  f ]

(%i4) /* multivariate sample */ mean (%);
                      e + c + a  f + d + b
(%o4)                [---------, ---------]
                          3          3

多変数標本では、平均は列それぞれに関して計算されることに注意してください。

異なるサイズかもしれない複数の標本の場合、 Maxima関数mapが標本それぞれに対して望みの結果を得るのに使うことができます。

(%i1) load ("descriptive")$

(%i2) map (mean, [[a, b, c], [d, e]]);
                        c + b + a  e + d
(%o2)                  [---------, -----]
                            3        2

この場合、サイズ３と２の２つの標本がリストに格納されました。

１変数標本は以下のようにリストに格納されなければいけません。

(%i1) s1 : [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5];
(%o1)           [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]

多変数標本は以下のように行列に格納されなければいけません。

(%i1) s2 : matrix ([13.17, 9.29], [14.71, 16.88], [18.50, 16.88],
             [10.58, 6.63], [13.33, 13.25], [13.21,  8.12]);
                        [ 13.17  9.29  ]
                        [              ]
                        [ 14.71  16.88 ]
                        [              ]
                        [ 18.5   16.88 ]
(%o1)                   [              ]
                        [ 10.58  6.63  ]
                        [              ]
                        [ 13.33  13.25 ]
                        [              ]
                        [ 13.21  8.12  ]

この場合、列の数は確率変数次元に等しく、行の数はサプルのサイズです。

データは手で入力することができますが、大きな標本は普通プレインテキストファイルの中に格納されています。例えば、ファイルpidigits.dataは数%piの最初の100桁を含みます:

(%i1) s1 : read_list (file_search ("pidigits.data"))$

(%i2) length (s1);
(%o2)                          100

他方、ファイルwind.dataはアイルランド共和国の５つの気象台の毎日の平均風速を含みます。 (これは１２の気象台で取得されたデータセットの一部です。元のファイルはStatLib Data Repositoryから無料でダウンロードでき、その分析はHaslett, J., Raftery, A. E. (1989) Space-time Modelling with Long-memory Dependence: Assessing Ireland’s Wind Power Resource, with Discussion. Applied Statistics 38, 1-50 で議論されてます。) 以下ではデータをロードします:

(%i1) s2 : read_matrix (file_search ("wind.data"))$

(%i2) length (s2);
(%o2)                          100

(%i3) s2 [%]; /* last record */
(%o3)            [3.58, 6.0, 4.58, 7.62, 11.25]

いくつかの標本は数値でないデータを含みます。例えば、ファイルbiomed.data (StatLib Data Repositoryからダウンロードされた別のもっと大きなものの一部)は、異なる年齢の、２つのグループAとBの患者から測定された４つの血圧を含みます。

(%i1) s3 : read_matrix (file_search ("biomed.data"))$

(%i2) length (s3);
(%o2)                          100

(%i3) s3 [1]; /* first record */
(%o3)            [A, 30, 167.0, 89.0, 25.6, 364]

最初の個人はグループAに属し、30歳で、血圧は167.0, 89.0, 25.6 and 364でした。

カテゴリデータを扱う時には気をつけなければいけません。次の例では、シンボルaが以前のある時点で値に割り当てられ、その後、カテゴリ値aを持つ標本が取られます。

(%i1) a : 1$

(%i2) matrix ([a, 3], [b, 5]);
                            [ 1  3 ]
(%o2)                       [      ]
                            [ b  5 ]

45.1 Introduction to descriptive