Цель лекции: получить представление о математической статистике как науки, методах математической статистики, статистических характеристиках случайной величины, многомерном статистическом анализе.
Учебные вопросы:
Введение
1. Введение в математическую статистику.
2. Статистические характеристики случайной величины.
3. Многомерный статистический анализ:
- задача снижения размерности (факторный анализ);
- задача классификации объектов (кластер-анализ);
- задача корреляционного анализа;
- задача регрессионного анализа.
Время – 2 часа
Введение
В таких неопределенных условиях приходится принимать решения, иногда очень важные. Принимаемые решения должны приниматься на основе анализа большого массива информационных данных, быть обоснованными и доказуемыми.
Именно для решения подобного рода задач, которые связаны с анализом больших объемов данных и наличии случайных воздействий, математиками и специалистами из других наук (биология, химия, физика) выработан набор методов, который в совокупности объединен названием «математическая статистика».
Данный набор методов позволяет выявить закономерности в массовых случайных событиях и явлениях. Это позволяет ученым оценить не только текущее состояние изучаемого объекта, но и сделать обоснованный прогноз дальнейшего поведения объекта, давать вероятностные оценки его выполнения или невыполнения.
Учебный вопрос № 1. Введение в математическую статистику
Математическая статистика - специальная прикладная наука. Предметом ее исследования является определение числовых характеристик случайных величин и нахождения закона распределения случайной величины.
Основными типичными и наиболее важными по своим практическим применениям задачами математической статистики являются:
- нахождение закона распределения случайной величины;
- проверка правдоподобия гипотез;
- нахождение неизвестных параметров распределений.
Построение статистической функции распределения случайной величины является одной из основных задач обработки простого статистического ряда является.
Статистической функцией распределения F*(x) случайной величины Х называется частота события Х<х в данном статистическом материале, т.е.
F*(x) = P*(Х < х).
Для того чтобы принять или опровергнуть гипотезу Н, рассматривается некоторая величина U, характеризующая меру расхождения теоретического и статистического распределений. Эта величина может быть выбрана различными способами. В качестве одной из таких мер, широко используемых в математической статистике, рассматривается величина
U = c2 = nS(pi* - pi)2/pi ; i=1, 2, …, k,
где piи pi* - соответственно теоретические и экспериментальные значения статистического ряда, k - число разрядов случайной величины, n - число проведенных опытов.
Рассмотрим алгоритм действий при использовании критерия c2 к оценке согласованности теоретического и статистического распределений.
На первом этапе находится мера расхождения U=c2 по вышеприведенной формуле.
На втором этапе вычисляется число степеней свободы r как число разрядов k минус число связей s, наложенных на экспериментальные частоты, т.е.
r = k-s.
На третьем этапе по значениям r и c2 из соответствующих таблиц находится вероятность того, что величина, имеющая распределение c2 с r степенями свободы, превзойдет данное значение c2.
Если эта вероятность весьма мала, то гипотеза Н о том, что изучаемая случайная величина подчинена выбранному теоретическому закону распределения, отбрасывается как неправдоподобная. В противном случае (если эта вероятность относительно велика), гипотезу Н можно признать не противоречащей опытным данным.
Учебный вопрос № 2. Статистические характеристики случайной величины
В математической статистике рассматриваются числовые характеристики случайной величины. Рассмотрим далее эти характеристики.
Первой характеристикой является среднее арифметическое значение (или статистическое среднее)
M*(X) = n-1 åxi,
где xi - значение случайной величины, наблюденное в i-м опыте, n - число опытов.
Второй характеристикой является статистическая дисперсия случайной величины
D*(X) = n-1 å(xi- M*(X))2.
Величины M(X) и D*(X) в математической статистике принято называть точечными оценками для соответствующих параметров. В ряде задач требуется найти для некоторого параметра a не только его точечную оценку a* (или, как говорят, оценить его численное значение), но и оценить точность и надежность этого значения. Чтобы получить представление о точности и надежности оценки a*в математической статистике пользуются так называемыми доверительными интервалами и доверительными вероятностями. Остановимся подробнее на этих понятиях.
Пусть по данным выборки найдена точечная статистическая оценка a* для некоторого параметраa(например, для математического ожидания случайной величины). Очевидно, что a* тем точнее определяет параметр a, чем меньше абсолютная величина разности e = |a - a*|, т.е. число e характеризует точность оценки. Доверительной вероятностью b (или надежностью) оценки называют вероятность, с которой выполняется неравенство |a- a*| < e, т.е.
Р(|a- a*| < e) =b,
причем наиболее часто задают достаточно высокую надежность b=0.95, 0.99 и даже 0.999. Последнее выражение означает, что с вероятностью b неизвестное значение параметра a попадает в интервал
Ib = (a* - e , a* + e),
называемый доверительным интервалом. Задача интервального оценивания заключается в нахождении величины доверительного интервала (т.е. фактически числа e), соответствующего заданной доверительной вероятности b. Для точного решения этой задачи требуется знание закона распределения случайной величины a*. Однако во многих практических случаях это не всегда возможно. Поэтому вопросы построения интервальных оценок рассматриваются отдельно для каждого конкретного случая.
Учебный вопрос № 3. Многомерный статистический анализ
При исследовании реальных объектов в экспертной практике появляется необходимость одновременного учета и анализа достаточно большого числа (порядка нескольких десятков и даже сотен) различных показателей, т.е. статистическому наблюдению подвергается некоторая совокупность различных признаков на множестве объектов. В этом случае возникает целый комплекс довольно сложных задач анализа и классификации многомерных данных наблюдения, решение которых в настоящее время практически невозможно без применения современных средств вычислительной техники и специальных математических методов, прежде всего методов многомерного статистического анализа.
Основными задачами многомерного статистического анализа являются:
- снижение размерности исследуемого пространства (количества) признаков (факторный анализ, многомерное шкалирование и др.);
- классификация объектов (кластерный анализ, распознавание образов и др.);
- исследование зависимости между анализируемыми признаками (корреляционный, регрессионный, дисперсионный анализы и др.).
Рассмотрим некоторые из наиболее часто используемых на практике методов многомерного статистического анализа.
Задача снижения размерности (факторный анализ)
Идея проведения факторного анализа базируется на предположении, в соответствии с которым структура связей между измеренными признаками может быть объяснена тем, что все эти переменные зависят (линейно или как-то иначе) от меньшего числа других, непосредственно не измеряемых (скрытых или, как говорят, латентных) факторов, общих для всех исходных признаков.
Следует отметить, что в настоящее время наиболее широкое распространение получила линейная модель факторного анализа. Нелинейные модели пока используются весьма редко из-за значительных вычислительных трудностей и сложностей в интерпретации получаемых результатов.
Для определения общих факторов применяется ряд различных методов, в частности, главных компонент, центроидный, максимального правдоподобия и др. Все эти методы объединяет одна цель - определить общие факторы таким образом, чтобы вычисленные значения признаков наиболее точно соответствовали измеренным их значениям. Их небольшое различие - лишь в конкретизации критерия точности аппроксимации.
Факторный анализ необходим не только для решения практически важной задачи снижения размерности (сжатия) исходных данных, его результаты могут быть использованы и для проведения классификации различных объектов, что в значительной степени упрощает построение математических моделей и проведение дальнейших исследований.
Задача классификации объектов (кластер-анализ)
В самой общей постановке задача классификации объектов заключается в том, чтобы всю анализируемую совокупность объектов разбить на сравнительно небольшое число (заранее известное или нет) однородных, в определенном смысле, групп или классов.
Процедура кластерного анализа предполагает исследование геометрической структуры совокупности исследуемых объектов на основе вычисления расстояний между ними.
Основная идея проведения этой процедуры базируется на вполне естественном предположении, что геометрическая объекты, принадлежащие одному классу, находились бы на сравнительно небольших расстояниях друг от друга. Полученные в результате разбиения классы часто называют кластерами, а методы их нахождения кластер-анализом, распознаванием образов.
Важное место в задаче кластер-анализа, занимает вопрос выбора метрики (или меры близости) между объектами, который часто оказывает существенное влияние на окончательный вариант разбиения объектов на классы при любом используемом для этого алгоритме разбиения. Это влияние проявляется, прежде всего, в том, что в зависимости от того или иного способа задания метрики одни и те же объекты могут быть отнесены к разным классам. Этот момент является, пожалуй, одним из наиболее трудных и наименее формализованных в задаче классификации объектов. Существуют некоторые естественные требования, предъявляемые при выборе меры близости объектов (например, требование симметрии, максимального сходства объекта с самим собой и др.), однако в общем случае этот выбор в каждой конкретной задаче должен производиться по-своему.
Многообразие способов задания метрики порождает множество различных алгоритмов решения задачи кластер-анализа, останавливаться на которых не входит в задачу данного изложения. Отметим лишь, что применение процедур кластер-анализа (также как факторного анализа) направлено, прежде всего, на решение вопроса снижения размерности исходного статистического материала, что существенно позволяет упростить дальнейшее исследование задачи методами корреляционно-регрессионного анализа. При этом широко используется прием, основанный на том, что не будет большой потери информации, если вместо целой группы (класса) однородных объектов для дальнейшего исследования оставить лишь по одному представителю от каждой такой группы.
Задача корреляционного анализа
Во многих практических приложениях нас интересует следующий вопрос: существует ли (и если да, то какая) зависимость между анализируемыми признаками, значения которых мы наблюдаем? Например, имеется ли (при некоторых определенных условиях) какая-то зависимость между возрастом и количеством осужденных или между населением города и уровнем преступности?
При исследовании этого вопроса следует иметь в виду следующее важное обстоятельство. В обычной математике рассматриваются так называемые функциональные зависимости типа
Y = F(X),
где значение зависимой переменной Y однозначно определяется значением независимой переменной X, т.е. зная значение X и вид функции F, мы можем абсолютно точно указать значение Y.
При анализе объектов криминалистического исследования мы сталкиваемся с принципиально другой ситуацией. Мало того, что нам неизвестен вид функции F (ее поиск как раз и является нашей целью), можно также с уверенностью утверждать, что такой функциональной зависимости, которая бы точно отражала связь между переменными Y и X, в данном случае не существует. В этом случае мы имеем дело с так называемой статистической (стохастической) зависимостью.
Для изучения стохастических зависимостей существуют специальные методы, в частности - корреляционный анализ,который представляет собой совокупность статистических методов обработки информации, позволяющих исследовать взаимосвязи между различными признаками.
Главная задача корреляционного анализа решается путем вычисления различных коэффициентов корреляции и проверки их значимости. Если коэффициент корреляции отличен от нуля, то это является признаком наличия зависимости между анализируемыми переменными.
Для проведения корреляционного анализа необходимо последовательно выполнить следующие действия.
Сначала для первого качественного суждения о наличии зависимости между анализируемыми переменными X и Y всегда полезно предварительно отобразить на графике наблюденные пары значений (Xi, Yi, i=1,n). Полученный график называется диаграммой рассеяния (рис. 1).
Рис. 1. Пример построения диаграммы рассеяния
Если такое предположение допустимо, то необходимо выразить в количественном виде величину линейной связи. Для этого вычисляется выборочный коэффициент корреляции
r = sxy / sxsy ,
где
n
sxy = {S (Xi - Mx)(Yi - My)}/ (n-1),
i=1
n - объем выборки; Xi ,Yi - i-е значения, Mx, My - выборочные средние значения, sx, sy - выборочные среднеквадратичные отклонения переменных X и Y соответственно. Коэффициент корреляции r может принимать значения в диапазоне от -1 до +1. В случае r > 0 говорят о положительной корреляции величин X и Y, в случае r < 0 - об отрицательной корреляции. По вычисленному значению величины r судят о степени линейной статистической связи между анализируемыми признаками X и Y (Таблица 5).
Таблица 5.
Значение коэффициента корреляции и характеристика связи
Значение коэффициента корреляции |
Характеристика связи |
r » 0 |
связь отсутствует |
½r½< 0.3 |
связь слабая |
0.3 < ½r½ < 0.5 |
связь умеренная |
0.5 < ½r½ < 0.7 |
связь значительная |
0.7 < ½r½ < 0.9 |
связь сильная |
½r½> 0.9 |
связь очень сильная |
Однако к такой упрощенной оценке силы связи нужно относиться с большой осторожностью, т.к. значение выборочного коэффициента корреляции r может существенно зависеть от объема n исследуемой совокупности значений признаков. В качестве одного из критериев проверки на значимость рассматривают следующую величину
t = r Ö n-2 / Ö 1- r2 .
Если ½t½ > tкр, то есть основания считать, что вычисленный коэффициент корреляции r значимо отличается от нуля (т.е. признаки X и Y коррелированны), в противном случае (если ½t½ < tкр) - таких оснований нет, т.е. связь между признаками либо отсутствует, либо выборка мала для ее выявления. Критическое значение tкр определяется исходя из задаваемых объема выборки n и уровня значимости a и обычно задается в виде некоторой таблицы значений tкр(n,a) (Таблица 6).
Таблица 6
Значение tкр
Объем |
Уровень значимостиa |
|||||
выборки n |
0,10 |
0,05 |
0,02 |
0,01 |
0,002 |
0,001 |
3 |
6,31 |
12,7 |
31,82 |
63,7 |
318,3 |
637,0 |
5 |
2,35 |
3,18 |
4,54 |
5,84 |
10,22 |
12,9 |
10 |
1,86 |
2,31 |
2,90 |
3,36 |
4,50 |
5,04 |
15 |
1,77 |
2,16 |
2,65 |
3,01 |
3,85 |
4,22 |
20 |
1,73 |
2,10 |
2,55 |
2,88 |
3,61 |
3,92 |
30 |
1,70 |
2,05 |
2,46 |
2,76 |
3,40 |
3,66 |
Величина a характеризует величину ошибки, которая может быть допущена при принятии решения относительно значимости вычисленного коэффициента корреляции. Если мы хотим, чтобы это решение было более обосновано, то должны пользоваться значениями, соответствующими меньшим значениям a (меньшим ошибкам).
Задача регрессионного анализа
Задачи корреляционного и регрессионного анализа непосредственно связаны между собой. Если корреляционный анализ позволяет по результатам наблюдений установить факт наличия, а также количественно оценить направление и силу статистической зависимости между анализируемыми признаками X и Y, то регрессионный анализ - еще и форму этой зависимости, т.е. конкретный вид F функции Y = F(X). Функция F называется функцией регрессии или просто регрессией Y на X.
При проведении регрессионного анализа решаются следующие задачи:
1. Определение формы зависимости на основе диаграммы рассеяния.
2. Выбор функции регрессии, т.е. типа математического уравнения, позволяющего описать общую зависимость Y от X.
3. Построение уравнения регрессии. Для построения уравнения регрессии широко используется специальный метод наименьших квадратов. Он имеет ряд преимуществ перед другими методами сглаживания экспериментальных зависимостей, а именно: вычислительная простота, довольно веское теоретическое обоснование. Основная идея этого метода заключается в следующем.
Пусть имеются n экспериментальных значений переменных X и Y, оформленные в виде статистической таблицы (Таблица 7):
Таблица 7
Экспериментальные значения переменных X и Y
i |
1 |
2 |
. . . |
n |
Xi |
X1 |
X2 |
. . . |
Xn |
Yi |
Y1 |
Y2 |
. . . |
Yn |
Предполагается, что эти переменные связаны некоторой конкретной функциональной зависимостью Y = F(X). Искомая функция F(X) кроме независимой переменной содержит ряд числовых параметров a, b, c, ... , т.е. должна быть записана в виде F(X; a, b, c, ...) . Например, F(X; a, b)= a X + b, F(X; a, b, c)= a X2 + bX +c и т.п. Требуется определить эти параметры таким образом, чтобы кривая F(X; a, b, c, ...) в каком-то смысле наилучшим образом описывала экспериментальные данные. Согласно методу наименьших квадратов эти параметры следует выбрать так, чтобы сумма квадратов отклонений экспериментальных данных Yi от F(Xi; a, b, c, ...) была минимальна, т.е. выполнялось условие
n
S{Yi - F(Xi; a, b, c, ...)}2 ® min.
i=1
Как отмечалось, этот метод приводит к сравнительно простым выражениям для определения неизвестных параметров a, b, c, ..., входящих в искомую функцию F(X; a, b, c, ...). Так, например, для случая линейной функции F(X; a, b) = aX + b, эти выражения имеют следующий вид
a = r sy /sx; b = My - a Mx ,
где r, sy ,sx, My, Mx - хорошо знакомые нам выборочные коэффициент корреляции, среднеквадратичные отклонения и средние значения переменных Y и X соответственно. Таким образом, окончательное выражение для случая линейной функции регрессии между двумя признаками Y и X, найденное по методу наименьших квадратов, может быть записано в виде
Y = r sy / sx X + My - r sy / sx Mx .
Контрольные вопросы для повторения
1. Раскройте понятие «Математическая статистика».
2. Что является предметом исследования науки «Математическая статистика»?
3. Перечислите задачи, решаемые математической статистикой.
4. Назовите статистические характеристики случайной величины.
5. Дайте определение понятия «среднее арифметическое значение (или статистическое среднее)».
6. Дайте определение понятия «статистическая дисперсия случайной величины».
7. Дайте определение понятиям «доверительные интервалы» и «доверительные вероятности»,
8. Перечислите основные задачи многомерного статистического анализа.
9. Опишите основные положения задачи снижения размерности (факторный анализ).
10. Опишите основные положения задачи классификации объектов (кластер-анализ).
11. Опишите основные положения задачи корреляционного анализа.
12. Назовите основную задачу корреляционного анализа.
13. Дайте определение понятия «диаграмма рассеяния».
14. Назовите границы, в которых может изменяться коэффициент корреляции.
15. Назовите величину, которую используют в качестве одного из критериев проверки на значимость коэффициента корреляции.
16. Перечислите задачи, которые решает регрессионный анализ.
17. Опишите метод наименьших квадратов, используемый при регрессионном анализе.
Ссылки на источники
- Информатика и математика для юристов: учебник / под ред. С. Я. Казанцева, Н. М. Дубининой. - 2-е изд., перераб. и доп. - М. : ЮНИТИ-ДАНА, 2016. - 558 с.
- Фадеева Л.Н., Лебедев А.В. Теория вероятностей и математическая статистика: Учебное пособие. «Эксмо», 2010. 496 с.
- Саакян Г.Р., Хоменко Ю.А. Лекции по курсу математики для юристов. – Шахты: ЮРГУЭС (Южно-Российский государственный университет экономики и сервиса), 2006. – 33.
- Лопатин П.Б. Математика для юристов: учебное пособие для вузов. «Феникс», 2008. - 149 с.
- Соболь Б.В., Мишняков Н.Т. и др. Практикум по высшей математике: учебное пособие для вузов. «Феникс», 2010. – 630 с.
- Статистическая обработка данных с помощью электронных таблиц (учебное пособие): учебное пособие. /Под ред. Н.В. Ходяковой. – Волгоград: ВА МВД России, 2014. – 96 с.
- Козлов В.Н. Системный анализ, оптимизация и принятие решений: учебное пособие. «Проспект», 2010. 173 с.
- Роганов Е.А., Тихомиров Н.Б., Шелехов А.М. Математика и информатика для юристов. Изд-во МГИУ. 2005. 364 с.
- Арбузов П.В., Герасименко В.Н. и др. Высшая математика для юристов: учебное пособие. «Феникс», 2007. 443 с.
- Математические методы в криминалистической экспертизе: Курс лекций. – Волгоград: ВА МВД России, 2004. – 124 с.