Next: Функции и переменные для манипулирования данными, Previous: Пакет descriptive, Up: Пакет descriptive [Contents][Index]
Пакет descriptive
содержит набор функций для выполнения вычислений и визуализации данных в рамках описательной
статистики. Вместе с исходным кодом пакета Maxima включает также три набора данных: pidigits.data
,
wind.data
и biomed.data
.
Для справки по функциям пакета descriptive
можно использовать любое статистическое руководство.
Для комментариев, сообщений об ошибках и предложений обращайтесь к автору пакета по адресу ’mario AT edu DOT xunta DOT es’.
Ниже приведен простой пример использования функций пакета descriptive
в зависимости
от природы своих аргументов
(%i1) load ("descriptive")$ (%i2) /* univariate sample */ mean ([a, b, c]); c + b + a (%o2) --------- 3 (%i3) matrix ([a, b], [c, d], [e, f]); [ a b ] [ ] (%o3) [ c d ] [ ] [ e f ] (%i4) /* multivariate sample */ mean (%); e + c + a f + d + b (%o4) [---------, ---------] 3 3
Отметим, что для многомерной выборки среднее вычисляется для каждой колонки.
В случае нескольких выборок, возможно различного размера, для получения результата для каждой
выборки можно использовать функцию map
(%i1) load ("descriptive")$ (%i2) map (mean, [[a, b, c], [d, e]]); c + b + a e + d (%o2) [---------, -----] 3 2
В этом случае в списке находятся две выборки длины 3 и 2.
Одномерные выборки представляются списками
(%i1) s1 : [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]; (%o1) [3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5]
а многомерные выборки, матрицами
(%i1) s2 : matrix ([13.17, 9.29], [14.71, 16.88], [18.50, 16.88], [10.58, 6.63], [13.33, 13.25], [13.21, 8.12]); [ 13.17 9.29 ] [ ] [ 14.71 16.88 ] [ ] [ 18.5 16.88 ] (%o1) [ ] [ 10.58 6.63 ] [ ] [ 13.33 13.25 ] [ ] [ 13.21 8.12 ]
В этом случае число колонок равно размерности случайной переменной, а число строк есть размер выборки.
Данные могут быть введены в ручную, но большие выборки обычно хранятся в текстовых файлах.
Например, файл pidigits.data
содержит первые 100 цифр числа %pi
:
3 1 4 1 5 9 2 6 5 3 ...
Для загрузки этих данных в Maxima следует делать так
(%i1) load ("numericalio")$ (%i2) s1 : read_list (file_search ("pidigits.data"))$ (%i3) length (s1); (%o3) 100
С другой стороны, файл wind.data
содержит дневные средние значения скорости ветра
для 5 метеорологических станций в Ирландии (Это часть данных, взятых с 12 метеорологических
станций. Исходные данные свободно доступны в StatLib Data Repository и их анализ обсуждается в
Haslett, J., Raftery, A. E. (1989)
Space-time Modelling with Long-memory Dependence: Assessing Ireland’s Wind Power Resource, with Discussion.
Applied Statistics 38, 1-50). Данные загружаются при помощи:
(%i1) load ("numericalio")$ (%i2) s2 : read_matrix (file_search ("wind.data"))$ (%i3) length (s2); (%o3) 100 (%i4) s2 [%]; /* last record */ (%o4) [3.58, 6.0, 4.58, 7.62, 11.25]
Некоторые выборки содержат нечисловые данные. Например,
файл biomed.data
(являющийся частью другого большого набора данных из StatLib Data Repository)
содержит четыре измерения крови взятые от двух групп пациентов разного возраста
A
и B
(%i1) load ("numericalio")$ (%i2) s3 : read_matrix (file_search ("biomed.data"))$ (%i3) length (s3); (%o3) 100 (%i4) s3 [1]; /* first record */ (%o4) [A, 30, 167.0, 89.0, 25.6, 364]
Первый пациент принадлежит группе A
, возраст 30 лет, и его/ее измерения
крови есть 167.0, 89.0, 25.6 и 364.
При работе с категоризированными данными следует соблюдать осторожность.
В следующем примере символу a
присвоено значение до задания катигоризированной выборки
(%i1) a : 1$ (%i2) matrix ([a, 3], [b, 5]); [ 1 3 ] (%o2) [ ] [ b 5 ]
Next: Функции и переменные для манипулирования данными, Previous: Пакет descriptive, Up: Пакет descriptive [Contents][Index]