В этом и последующих уроках мы будем работать со статистическими данными. Эти данные будем рассматривать как два вектора одинаковой длины, один из которых включает в себя независимые переменные, а второй — зависимые.
Выше находятся три вектора, каждый из которых включает в себя 1000 элементов. Отображены только первые несколько элементов. Чтобы просмотреть другие элементы, следует щелкнуть по трем точкам внизу столбца чисел, чтобы появился ползунок — квадрат на серой линии:
Первый вектор включает в себя независимую переменную. Вектор X содержит действительные числа, Y — нули и единицы — категории, которые служат для обозначения да/нет, орел/решка и т.п. Эти данные сгенерированы в Mathcad. Как это сделано, мы рассмотрим в конце урока.
Категории и действительные числа в статистике рассматриваются по-разному. Однако, в некоторых случаях такое разделение не совсем ясно — данные можно отнести к любой из двух групп.
Данные выше составляют генеральную совокупность из 1000 точек. В какой-то момент мы рассматривает выборку из этой генеральной совокупности. Часто мы хотим получить представление о свойствах генеральной совокупности, изучая выборку.
Описание данных
Рассмотрим сначала действительные числа. В первую очередь, для описания набора данных используются параметры:
(а) среднее арифметическое X_;
(б) среднеквадратическое (стандартное) отклонение S.
Среднее арифметическое показывает, где находится центр распределения, а среднеквадратическое отклонение (сокращенно СКО) — ширину распределения. Иногда используются и другие параметры, такие как медиана и эксцесс. Эти параметры можно найти в меню Функции -> Статистические:
Среднее арифметическое зависимой переменной X:
СКО переменной X:
Функция в Mathcad:
(В статистике среднее арифметическое обычно обозначается буквой с черточкой над ней. В Mathcadтакая черточка используется с другой целью, поэтому для обозначения среднего арифметического мы используем нижнее подчеркивание.)
Теперь рассмотрим выборку — только первые десять элементов. Условимся обозначать генеральную совокупность заглавной буквой, а выборку — маленькой:
Среднее арифметическое и СКО выборки можно использовать оценки этих же величин для генеральной совокупности:
Здесь у нас в выборке участвуют 10 элементов — такое число часто принимается за минимум выборки. Немного лучшую оценку СКО дает величина:
Здесь мы делили на (n-1) вместо n. Встроенная функция Mathcad:
Ниже находятся два графика, которые показывают некоторые характеристики распределения. Первый — это график в декартовых координатах, известный как диаграмма рассеяния. Он показывает точки данных и границы 2?:
Правило двух сигма в статистике гласит, что для нормального распределения 5% данных будут лежать вне границ 2? от среднего арифметического.
Второй график — гистограмма. Она показывает число точек данных, попавших в различные интервалы. Как его построить, мы обсудим в дальнейшем:
Различные наборы данных можно получить, нажав [Ctrl+F5]. Это займет время, поскольку пересчитывается весь документ.
Теперь рассмотрим данные категорий. Предположим, что мы рассматриваем результат подбрасывания монеты: «1» — орел, «0» — решка. Из нашего набора данных мы можем получить вероятность выпадения орла. Следует внимательно применять арифметические операции к данным категорий, но в нашем выборе между «0» и «1» мы можем легко получить долю единиц, найдя среднее арифметическое вектора Y:
Это вероятность выпадения орла. Заметьте, что считать нужно от 0 до (N-1), чтобы учесть N точек.
Для небольшой выборки ее среднее арифметическое может существенно отличаться от среднего совокупности:
Вы можете получать различные наборы данных в выборке каждый раз, нажимая [Ctrl+F5]. Попробуйте сделать это несколько раз. Для «0» и «1» нужна выборка, по крайней мере, из 30 точек, чтобы получить примерное представление о вероятности. Для надежных результатов при рассмотрении категорий нужны большие выборки — часто это тысячи точек.
Случайные числа
Данные выше были получены с использованием генераторов случайных чисел Mathcad. Они находятся в меню Функции -> Все функции -> Случайные числа. Наиболее важные из них — это равномерное и нормальное распределение.
Случайное число между 0 и x можно получить с помощью функции:
Здесь нажатие [Ctrl+F5] также даст новое значение. Чтобы получить набор случайных чисел, нужно задать диапазон:
На диаграмме рассеяния видно, что распределение действительно равномерное:
Проверим это еще раз с помощью гистограммы:
Выходными значениями функции гистограммы являются два вектора-столбца. Столбец «0» содержит центры интервалов, а столбец «1» — число элементов в каждом интервале:
При построении графика используйте тип «Столбцы»:
Получается равномерное распределение, как и ожидалось.
Случайные числа с нормальным распределением генерирует функция rnorm(). Она содержит три параметра: число точек, среднее арифметическое и СКО. Создадим набор большого числа точек:
Построим гистограмму с 30 интервалами:
Такой колоколообразный график соответствует нормальному распределению.
Резюме
- Данные включают в себя набор векторов одинаковой длины. Первый вектор — независимая переменная, второй (третий, четвертый,…) — может быть переменной категорий, или включать в себя действительные числа. Полный набор данных формирует генеральную совокупность. Любая ее часть называется выборкой.
- Поведение данных можно описать с помощью среднего арифметического и среднеквадратического отклонения. (Для категорий можно определить лишь вероятность.) В Mathcad есть функции mean() и stdev() для их вычисления. Чтобы оценить стандартное отклонение генеральной совокупности по выборке, используйте Stdev().
- Обычно одна из двадцати точек выходит за пределы границ, отстоящих по обе стороны от среднего арифметического на 2?. Это можно проверить по диаграмме рассеяния или по гистограмме. Гистограмма формируется с помощью функции histogram(intervals,x), выходом которой является матрица с двумя столбцами: столбец «0» содержит данные для оси Xграфика, столбец «1» — для оси Y. Извлечь эти столбцы по отдельности можно с помощью команды Матрицы и таблицы -> Операции с векторами/матрицами.
- Мы рассмотрели два генератора случайных чисел Mathcad. Функция rnd(3) дает случайное значение с равномерным распределением в промежутке 0
Видео:Математика это не ИсламСкачать
Mathcad среднее значение вектора
Глава 7. Математическая статистика
7.1 Характеристика выборки данных и связи двух массивов
MathCAD содержит 16 различных функций для оценки параметров выборки данных. Перечислим основные из них:
– mean ( A ) возвращает среднее значение элементов массива А;
– hmean ( A ) возвращает среднее гармоническое значение элементов массива А;
– gmean ( A ) возвращает среднее геометрическое значение элементов массива А;
– var ( A ) возвращает дисперсию элементов массива А;
– Var ( A ) возвращает несмещенную дисперсию элементов массива А;
– stdev ( A ) возвращает среднее квадратическое отклонение элементов массива А;
– Stdev ( A ) возвращает несмещенное среднее квадратическое отклонение элементов массива А;
– median ( A ) возвращает медиану массива А, которая делит гистограмму плотности вероятностей на две равные части;
– mode ( A ) возвращает моду массива А (наиболее часто встречающееся значение выборки данных);
– skew ( A ) возвращает ассиметрию массива А (степень ассиметричности гистограммы плотности вероятности относительно оси, проходящей через ее центр тяжести);
– kurt (х) возвращает эксцесс массив А (степень сглаженности плотности вероятности в окрестности главного максимума);
– stderr ( A , В) возвращает стандартную ошибку при линейной регрессии массивов А и В;
– cvar ( A ) возвращает ковариацию элементов двух массивов А и В;
– corr ( A ) возвращает коэффициент корреляции двух массивов А и В;
– hist ( int , y ) функция построения гистограммы массива А;
– histogram ( n , y ) функция построения гистограммы массива А.
Формулы для расчета указанных характеристик приведены на рис. 7.1 и 7.2.
Векторы наблюдений
среднее арифметическое
среднее геометрическое
среднее гармоническое
Рис. 7.1 Оценка параметров выборки данных
смещенная оценка
несмещенная оценка
среднее квадратическое отклонение
смещенная оценка
несмещенная оценка
медиана
мода
Эксцесс
ассиметрия
Рис. 7.2 Оценка параметров выборки данных (продолжение)
Все приведенные статистические функции могут использоваться для работы как с векторами, так и с матрицами. При этом статистические характеристики рассчитываются для совокупности значений всех элементов матрицы, без разделения ее на строки и столбцы. Так, для матрицы размерностью m n объем выборки равен m n .
В качестве аргументов функций можно указать любое количество векторов, матриц и скаляров. Пример вычисления статистических характеристик для нескольких массивов приведен на рис. 7.3. Порядок указания массивов не имеет значения.
В MathCAD имеются три функции для оценки связи двух векторов или матриц:
1) stderr ( A , B ) возвращает стандартную ошибку при линейной регрессии массивов А и В;
2) cvarr ( A , B ) возвращает ковариацию элементов массивов А и В;
3) corr ( A , B ) возвращает коэффициент корреляции массивов А и В.
Рис. 7.3 Оценка параметров нескольких массивов данных
Коэффициент корреляции и ковариации различаются лишь нормировкой.
Ковариация определяется по формуле
,
Коэффициент корреляции – по формуле
,
где σА, σВ – средние отклонения массивов А и В.
Чаще на практике используется коэффициент корреляции, дающий относительную, а не абсолютную (как ковариация) оценку связи двух массивов. Чем ближе к единице коэффициент корреляции, тем теснее связь. Пример расчета параметров связи массивов приведен на рис. 7.4.
Векторы наблюдений
Оценки связи двух массивов
ковариация
коэффициент корреляции
стандартная ошибка
Рис. 7.4 Оценка связи векторов А и К
Видео:7. MathCad. Векторы и матрицыСкачать
Среднее значение и дисперсия
В Mathcad 11 имеется ряд встроенных функций для расчетов числовых статистических характеристик рядов случайных данных.
- mean(x) —выборочное среднее значение;
- median (х) — выборочная медиана (median) — значение аргумента, которое делит гистограмму плотности вероятностей на две равные части;
- var(x) — выборочная дисперсия (variance);
- stdev(x) — среднеквадратичное (или «стандартное») отклонение (standard deviation);
- max(x), mm (x) — максимальное и минимальное значения выборки;
- mode(x) — наиболее часто встречающееся значение выборки;
- var (x) ,stdev(x) — выборочная дисперсия и среднеквадратичное отклонение в другой нормировке;
- х — вектор (или матрица) с выборкой случайных данных.
Пример использования первых четырех функций приведен в листинге 14.10.
Листинг 14.10. Расчет числовых характеристик случайного вектора
На рис. 14.12 приведена гистограмма выборки случайных чисел, распределенных согласно закону Вейбулла. Пунктирные вертикальные прямые, показанные на графике, рассчитаны в последней строке листинга и обозначают стандартное отклонение от среднего значения. Гистограмма получена с помощью листинга 14.8, рассмотренного в предыдущем разделе. Обратите внимание, что поскольку распределение Вейбулла, в отличие, например, от Гауссова, несимметричное, то медиана не совпадает со средним значением.
Рис. 14.12. Гистограмма распределения Вейбулла (листинг 14.10)
Определение статистических характеристик случайных величин приведено в листинге 14.11 на еще одном примере обработки выборки малого объема (по пяти данным). В том же листинге иллюстрируется применение еще двух функций, которые имеют смысл дисперсии и стандартного отклонения в несколько другой нормировке. Сравнивая различные выражения, Вы без труда освоите связь между встроенными функциями.
Осторожно относитесь к написанию первой литеры в этих функциях, особенно при обработке малых выборок (листинг 14.11).
Листинг 14.11. Копределению статических характеристик
🌟 Видео
Основные действия с матрицами и векторами в MathCAD 14 (20/34)Скачать
Код сверхспособностей по дате рождения. НумерологияСкачать
Векторная диаграмма токов в программе MathcadСкачать
Дискретные переменные в MathCAD 14 (9/34)Скачать
Функции для работы с матрицами и векторами в MathCAD 14 (21/34)Скачать
Матрицы. Скалярное и векторное произведение векторов в Mathcad, матричные функции(Урок 3.3)Скачать
Обозначение элементов в Mathcad PrimeСкачать
Задача10 Бл-сх С++ Mathcad Excel Одномерный массив, найти среднее и количество элементов по условиюСкачать
Вычисление простых выражений в MathCAD 14 (4/34) Часть 1Скачать
Векторы и матрицыСкачать
среднее, дисперсия и медианаСкачать
МАТКАД МатрицыСкачать
1. MathCad. Вычисление значений числовых выраженийСкачать
Матрицы в Mathcad(создание и редактирование матриц)(Урок 3.1)Скачать