Войти / Зарегистрироваться

Конспект лекции по теме «Статистический анализ результатов эксперимента» (2 часа)

Получить свидетельство
Автор: Разбегаев Павел Витальевич

Учебные вопросы:

Введение
1. Первичные методы статистической обработки.
2. Вторичные методы статистической обработки.
3. Использование статистических функций MS Excel для статистической обработки данных.
Время – 2 часа
 
Список используемой литературы
Основная литература
1. Информатика и математика для юристов: учебник / под ред. С. Я. Казанцева, Н. М. Дубининой. - 2-е изд., перераб. и доп. ‒ М.: ЮНИТИ-ДАНА, 2016. ‒ 558 с.
2. Фадеева Л.Н., Лебедев А.В. Теория вероятностей и математическая статистика: Учебное пособие. «Эксмо», 2010. ‒ 496 с.
3. Саакян Г.Р., Хоменко Ю.А. Лекции по курсу математики для юристов. – Шахты: ЮРГУЭС (Южно-Российский государственный университет экономики и сервиса), 2006. – 33.
4. Лопатин П.Б. Математика для юристов: учебное пособие для вузов. «Феникс», 2008. ‒ 149 с.
5. Соболь Б.В., Мишняков Н.Т. и др. Практикум по высшей математике: учебное пособие для вузов. «Феникс», 2010. – 630 с.
 
Дополнительная литература
1. Статистическая обработка данных с помощью электронных таблиц (учебное пособие): учебное пособие. /Под ред. Н.В. Ходяковой. – Волгоград: ВА МВД России, 2014. – 96 с.
2. Козлов В.Н. Системный анализ, оптимизация и принятие решений: учебное пособие. «Проспект», 2010. ‒173 с.
3. Роганов Е.А., Тихомиров Н.Б., Шелехов А.М. Математика и информатика для юристов. ‒ Изд-во МГИУ. ‒ 2005. ‒ 364 с.
4. Арбузов П.В., Герасименко В.Н. и др. Высшая математика для юристов: учебное пособие. «Феникс», 2007. ‒443 с.
5. Математические методы в криминалистической экспертизе: Курс лекций. – Волгоград: ВА МВД России, 2004. – 124 с.
 
  Введение
Статистический анализ результатов эксперимента является важным элементом интерпретации полученных количественных данных. Статистические методы являются основой для объяснения эмпирических данных, так как результат любого эксперимента является случайным в силу наличия случайных факторов и воздействий.
Эксперимент занимает важное место в научных исследованиях. Именно эксперимент является основным источником познания. Кроме этого, эксперимент выступает как критерий истинности гипотез и теорий.
В лекции рассмотрены основные статистические методы анализа экспериментальных данных, наиболее часто используемые при обработке результатов измерений, использование статистических функций MS Excel для статистической обработки данных.
 
Учебный вопрос № 1. Первичные методы статистической обработки
К первичным методам статистической обработки данных можно отнести следующие:
- нахождение статистического среднего;
- нахождение дисперсии;
- построение гистограммы и статистической функции.
Рассмотрим на следующем примере нахождение числовых характеристик случайной величины. Пусть произведены измерения отклонения пули (влево и вправо) от центра мишени при n=500 выстрелах. Результаты измерений (в сантиметрах) сведены в статистический ряд (Таблица 1):
Таблица 1
Результаты измерений

xi(см.)

-4; -3

-3; -2

-2; -1

-1; 0

0; 1

1; 2

2; 3

3; 4

mi

6

25

72

133

120

88

46

10

 
Здесь xiобозначены интервалы отклонения пули от центра мишени (ошибка стрельбы); mi - число наблюдений в данном интервале.
По данным статистического ряда требуется:
а) построить гистограмму и статистическую функцию ошибки стрельбы;
б) определить числовые характеристики (статистическое среднее и дисперсию) ошибки стрельбы;
в) используя критерий χ2, проверить согласие экспериментальных данных с законом нормального распределения;
г) построить доверительный интервал, соответствующий доверительной вероятности β=0,8, для оценки среднего значения ошибки стрельбы, считая распределение этой величины нормальным.
Для построения статистического ряда сначала определим статистические частоты как pi*=mi/n.
Все необходимые данные для построения гистограммы сведены в таблицу (Таблица 2):
Таблица 2
Данные для построения гистограммы

xi(см.)

-4; -3

-3; -2

-2; -1

-1; 0

0; 1

1; 2

2; 3

3; 4

pi*

0,012

0,050

0,144

0,256

0,240

0,176

0,092

0,020

 
Заметим, что величины pi* могут быть непосредственно использованы для построения гистограммы, т.к. длина каждого разряда в данном случае равна 1.

 
Рис. 1. Гистограмма (экспериментальные данные)
 
Статистическая функция распределения F*(x) отражает частоту события X<x в данном статистическом материале, т.е. F*(x)=p*(X<x). Применяя эту формулу, имеем:
F*(-4)=0;
F*(-3)=0,012;
F*(-2)=0,062;
F*(-1)=0,206;
F*(0)=0,462;
F*(1)=0,702;
F*(2)=0,878;
F*(3)=0,970;
F*(4)=1,000.
 
 
Рис.2. Статистическая функция распределения
 
Для вычисления числовых характеристик при классификации статистического материала по разрядам (большом количестве опытов) используются следующие формулы: M*=∑xi~pi*, D*=∑(xi~ - M*)2pi*, где xi~ - представитель i-го разряда (при одинаковых значениях интервалов за представителя каждого разряда, как правило, берется его среднее значение). Все данные, необходимые для вычисления величин M* и D*, сведем в таблицу (Таблица 3):
Таблица 3
Данные для вычисления величин M* и D*

xi~

-3,5

-2,5

-1,5

-0,5

0,5

1,5

2,5

3,5

pi*

0,012

0,050

0,144

0,256

0,240

0,176

0,092

0,020

 
Подставляя значения xi~  и pi*в расчетные формулы для M* и D*, получаем:
-  M*=0,168;
- D*=2,098;
 
Рис. 3. Гистограмма (теоретические данные)
 
Составим следующую сравнительную таблицу чисел попаданий в разряды (Таблица 4):
Таблица 4
Сравнительная таблица чисел попаданий в разряды

xi(см.)

-4; -3

-3; -2

-2; -1

-1; 0

0; 1

1; 2

2; 3

3; 4

mi

6

25

72

133

120

88

46

10

npi

6,2

26,2

71,2

122,2

131,8

90,5

38,2

10,5

 

Определим меру расхождения χ2 между экспериментальными и теоретическими данными по формуле: χ2=∑(mi- npi)2/ (npi)=3,94.

Определим число степеней свободы как число разрядов минус число наложенных связей (в данном случае 3), т.е. r=8-3=5.

По соответствующим таблицам для χ2 =3,94 и r=5 находим приближенное значение вероятности р=0,56. Эта вероятность достаточно велика, т.е. гипотезу о том, что изучаемая случайная величина подчинена нормальному закону, можно считать правдоподобной.

Общее решение задачи интервального оценивания параметра a может быть записано в виде Iβ=(a*-eβ; a*+eβ), где величина eβ вычисляется исходя из закона распределения случайной величины a*. В математической статистике доказывается, что в случае нормального распределения величина eβ может быть найдена как eβ=tβσ*, где величина tβ  зависит от доверительной вероятности β и определяется из соответствующих таблиц, σ* - выборочное среднеквадратичное отклонение случайной величины.

По таблице для β=0,8 находим tβ=1,282; eβ=tβσ*=1,856. Доверительные границы для оценки среднего значения М*=0,168: М*- eβ =-1,668; М*+eβ =2,024. Доверительный интервал: Iβ= (-1,668;2,024).
 
Учебный вопрос № 2. Вторичные методы статистической обработки
К вторичным методам статистической обработки данных можно отнести следующие:
- выявление корреляционных зависимостей и их интерпретация;
- регрессионное исчисление;
- сравнение средних величин выборок;
- факторный анализ.
Рассмотрим на следующем примере использование вторичных методов статистической обработки экспериментальных данных.
Пусть по десяти городам подготовлены следующие статистические данные о численности населения и количестве преступлений, зарегистрированных по линии преступлений в сфере компьютерных технологий (Таблица 5):
Таблица 5
Исходные данные по преступлениям в сфере компьютерных технологий

Номер

города

1

2

3

4

5

6

7

8

9

10

Численность

населения, x

(тыс. чел.)

 

400

 

420

 

280

 

290

 

260

 

250

 

360

 

460

 

300

 

400

Кол-во

преступлений

по линии КТ, y

 

1700

 

2300

 

1400

 

1300

 

750

 

1050

 

1500

 

1850

 

1600

 

2300

 
Необходимо определить направление и величину корреляционной связи между численностью населения и количеством зарегистрированных преступлений, а также проверить выборочный коэффициент корреляции на значимость для уровня значимости α=0,05.
Вычислим выборочный коэффициент корреляции r:
r=∑(xi-M(x))(yi-M(y))/(σy)/n,
где
- M(x) - выборочное среднее признака x;
- M(y) - выборочное среднее признака y;
- σx  - среднеквадратичное отклонение признака x;
- σy  - среднеквадратичное отклонение признака y.
Выборочное среднее признака х находится по формуле: 
 
Выборочное среднее признака y находится по формуле: 
Среднеквадратичное отклонение признака x находится по формуле:
 
 
Среднеквадратичное отклонение признака y находится по формуле:
 
 
Подставляя данные из таблицы 5, получаем:
M(x) = 342
M(y) = 1572
σx  = 71,10
σy  = 470,23.
Вычисляя r, получаем r=0,828. Полученное значение коэффициента корреляции свидетельствует о наличии достаточно сильной положительной связи между анализируемыми признаками.
Проверим выборочный коэффициент корреляции на значимость. Для этого рассчитаем величину:
t=r√(n-2)/ √(1-r2) при n=10: t=4,68.
Найденное значение t сравним с критическим tкр=2,31, взятым из соответствующей таблицы (Таблица 6) для n=10 и α=0,05.
Таблица 6
Значения tкр

Объем выборки n

Уровень значимости α

0,10

0,05

0,02

0,01

0,002

0,001

3

6,31

12,7

31,82

63,7

318,3

637,0

5

2,35

3,18

4,54

5,84

10,22

12,9

10

1,86

2,31

2,90

3,36

4,50

5,04

15

1,77

2,16

2,65

3,01

3,85

4,22

20

1,73

2,10

2,55

2,88

3,61

3,92

30

1,70

2,05

2,46

2,76

3,40

3,66

 
Поскольку t> tкр, то вычисленный коэффициент корреляции r значимо отличается от нуля, т.е. рассматриваемые в данной задаче признаки коррелированы.
На следующем примере рассмотрим применение статистических методов обработки данных при регрессионном анализе.
Исходные данные приведены в таблице 7 и содержат информацию о количестве преступлений, зарегистрированных в сфере компьютерных технологий, в период с 2013 по 2020 гг.:
Таблица 7
Количество преступлений, зарегистрированных
в сфере компьютерных технологий

Год

2014

2015

2016

2017

2018

2019

2020

t

1

2

3

4

5

6

7

Кол-во

преступлений

по линии КТ, y

(тыс.)

 

147

 

163

 

173

 

178

 

186

 

183

 

198

 
Считая, что приведенные экспериментальные данные достаточно точно описываются линейной зависимостью, построить уравнение регрессии
 y=at+b.
Коэффициенты уравнения определить в соответствии с методом наименьших квадратов. Используя полученное уравнение регрессии, сделайте прогноз преступности на 2021-2022 гг.
В случае линейной модели метод наименьших квадратов дает следующие выражения для коэффициентов уравнения регрессии:
a=rσyx;
b=My-aMx,
где Mx, My и σx, σy - выборочные средние и среднеквадратичные отклонения признаков x и y соответственно, а r - выборочный коэффициент корреляции между признаками.
Подставляя в эти выражения данные из таблицы (в данном случае полагаем x=t), получаем: a=7,4 и b=146,0. Таким образом, уравнение регрессии имеет вид y=7,4t+146.
Подставляя в полученное уравнение t=8, получаем y=205 - прогноз преступности на 2021 г. Аналогично для t=9 можно получить прогноз преступности на 2022 г.
Для случая квадратичной (y=ax2+bx+c) зависимости между изучаемыми переменными yи x параметры уравнения регрессии возможно найти по методу наименьших квадратов.
В общем случае параметры уравнения регрессии при использовании метода наименьших квадратов находятся из условия:
 
f(a,b,c,...)=S(yi-F(xi;a,b,c,...))2 → min.
 
В данном случае F(xi;a,b,c,...)=ax2+bx+c. С целью получения выражений для определения параметров a, b и c необходимо продифференцировать функцию f(a,b,c,...) по этим параметрам и приравнять все производные нулю. В результате получится система из трех уравнений с тремя неизвестными, которая может быть решена любым из известных методов.
 
Учебный вопрос № 3. Использование статистических функций MS Excel для статистической обработки данных.
 
Применение статистических функций в обработке данных для органов внутренних дел позволяет не только анализировать текущую обстановку, но и делать прогноз преступности на будущее. Это важно для планирования работы органов внутренних дел и выработки эффективных мер борьбы с преступностью.
В данном разделе рассмотрим применение статистических функций, которые доступны в электронной таблице MS Excel. Следует отметить, что количество таких встроенных статистических функций возросло.
По своим возможностям и совокупности доступных встроенных функций MS Excel практически не уступает специализированным математическим пакетам обработки статистических данных. Для применения встроенных статистических данных в MS Excel используется специальная надстройка «Пакет анализа».
Главной задачей статистического анализа является исследование совокупностей и выборок случайных данных.
Выборка является частью (подмножеством) совокупности. Например, для определения общественного мнения по отношению к деятельности полиции на определенной территории проводятся выборочные опросы.
Рассмотрим некоторые наиболее распространенные функции. Дополнительную информацию о других возможностях использования функций всегда можно найти, обратившись к встроенной справочной системе.
Первую группу функций составляют функции нахождения характеристики положения случайной величины – дисперсии:
- функция ДИСПР (определяет дисперсию генеральной совокупности данных);
- функция ДИСПА (определяет дисперсию выборки);
- функция ДИСПРА (определяет дисперсию генеральной совокупности данных, значения аргументов могут быть как числовыми, так и текстовыми, логическими).
Вторую группу статистических функций составляют функции нахождения зависимости между переменными (по силе и форме):
- функция КВПИРСОН (находит квадрат коэффициента корреляции Пирсона);
- функция КОВАР (находит ковариация, то есть среднее произведение отклонений от каждой пары точек исходных данных);
- функция КОРРЕЛ (вычисляет коэффициент корреляции между интервалами ячеек аргументов «массив 1» и «массив 2»;
- функция ЛИНЕЙН (строит (находит) уравнение прямой линии, которая наилучшим образом аппроксимирует имеющиеся данные);
- функция ЭКСПРАСП (рассчитывает экспоненциальное распределение).
Контрольные вопросы для повторения
1. Раскройте понятие «эксперимент».
2. Дайте определение понятия «опыт».
3. Перечислите числовые характеристики случайной величины.
4. Опишите, как определяется статистическая функция распределения.
5. Опишите, как определяется «среднее арифметическое значение (или статистическое среднее)».
6. Сформулируйте закон нормального распределения.
7. Опишите, как определяется «статистическая дисперсия случайной величины».
8. Опишите, как определяется «доверительный интервал».
9. Опишите, как определяются «доверительные вероятности».
10. Опишите, как определяется выборочный коэффициент корреляции.
11. Опишите, как осуществляется проверка выборочного коэффициента корреляции на значимость.
12. Опишите нахождение коэффициентов уравнения регрессии линейной модели методом наименьших квадратов.
13. Охарактеризуйте функции нахождения характеристики положения случайной величины с использованием программы MS Excel.
14. Охарактеризуйте функции нахождения характеристики рассеяния случайной величины с использованием программы MS Excel.
15. Охарактеризуйте функции нахождения зависимости между переменными (по силе и форме) с использованием программы MS Excel.

Похожие публикации