Измерение и прогнозирование в статистических исследованиях

Автор работы: Пользователь скрыл имя, 20 Июня 2013 в 08:36, курсовая работа

Описание работы

Статистика рассматривается как наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определенные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Явления, которые в случае событий массового характера отличаются определенной закономерностью, однако не обнаруживаются на основе единичного наблюдения, называются массовыми явлениями. Сама такая закономерность называется статистической закономерностью.

Содержание работы

ВВЕДЕНИЕ 6
1 Измерение в статистических исследованиях 11
1.1 Типы взаимосвязей. Корреляционный анализ 11
1.2 Расчет коэффициента парной корреляции и его статистическая проверка 14
1.3 О ложной корреляции (влияние «третьего фактора») 15
1.4 Измерение степени тесноты связи между качественными признаками (ранговая корреляция) 16
2 Прогнозирование в статистических исследованях 18
2.1 Регрессионный анализ данных 19
2.2 Множественная регрессия 24
2.3 Проблемы множественной регрессии 26
3 Практическая часть 29
3.1 Уравнение множественной регрессии 29
3.2 Предпосылки МНК 29
3.3 Оценка уравнения регрессии 30
3.4 Матрица парных коэффициентов корреляции 34
3.4.1 Модель регрессии в стандартном масштабе 37
3.5 Анализ параметров уравнения регрессии 39
3.5.1 Показатели тесноты связи факторов с результатом 42
3.5.2 Частные коэффициенты эластичности 42
3.5.3 Стандартизированные частные коэффициенты регрессии 42
3.5.4 Частные коэффициенты корреляции 43
3.5.5 Индекс множественной корреляции (множественный коэффициент корреляции) 44
3.5.6 Коэффициент детерминации 45
3.6 Оценка значения результативного признака при заданных знчениях факторов 45
3.7 Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров) 46
3.8 Проверка общего качества уравнения множественной регресии 47
3.9 Решение задачи с использованием программы (язык С++) 48
ЗАКЛЮЧЕНИЕ 55
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56

Файлы: 1 файл

Диплом-1.docx

— 533.06 Кб (Скачать файл)

Вместо использования индикаторных переменных можно находить  раздельные уравнения регрессии для каждой из категорий. Это приводит к более гибкой модели с различными коэффициентами регрессии для каждой из x-переменных по каждой категории.

 

3 Практическая часть

 

Для того чтобы показать процесс  измерения и прогнозирования, мной был проведен опрос среди интернет-пользователей, в возрасте от 16 лет. Вопрос, на который они должны были ответить: ”Какую часть свободного времени вы проводите в сети Интернет ежедневно?”.

Прогнозируемая переменная (Y) – время пребывания в сети Интернет. Измерялось в часах. Количество наблюдений (n) – 80.

X1 – количество свободного времени в день.

X2 – возраст пользователя. Минимальное значение переменной X2 – 16 лет.

Т.е.  надо было выявить есть ли связь  между этими переменными. Если есть, то можно ли с помощью этого  прогнозировать значение переменной Y.

3.1 Уравнение множественной регрессии

 

Уравнение множественной  регрессии может быть представлено в виде:

 

Y = f(β , X) + ε,                       (29)

 

где X = X(X1, X2, ..., Xm) - вектор независимых (объясняющих) переменных;

β - вектор параметров (подлежащих определению);

ε - случайная ошибка (отклонение);

Y - зависимая (объясняемая) переменная.

Теоретическое линейное уравнение множественной регрессии имеет вид:

 

Y = β0 + β1X1 + β2X2 + ... + βmXm + ε            (30)

 

β0 - свободный член, определяющий значение Y, в случае, когда все объясняющие переменные Xj равны 0.

Прежде чем перейти  к определению нахождения оценок коэффициентов регрессии, необходимо проверить ряд предпосылок МНК.

3.2 Предпосылки МНК

  1. Математическое ожидание случайного отклонения εi равно 0 для всех наблюдений (M(εi) = 0).
  2. Гомоскедастичность (постоянство дисперсий отклонений). Дисперсия случайных отклонений εi постоянна: D(εi) = D(εj) = S2 для любых i и j.
  3. Отсутствие автокорреляции.
  4. Случайное отклонение должно быть независимо от объясняющих переменных: Yeixi = 0.
  5. Модель является линейной относительно параметров.
  6. Отсутствие мультиколлинеарности. Между объясняющими переменными отсутствует строгая (сильная) линейная зависимость.
  7. Ошибки εi имеют нормальное распределение. Выполнимость данной предпосылки важна для проверки статистических гипотез и построения доверительных интервалов.

Эмпирическое уравнение  множественной регрессии представим в виде:

 

Y = b0 + b1X1 + b1X1 + ... + bmXm + e            (31)

 

Здесь b0, b1, ..., bm - оценки теоретических значений β0, β1, β2, ..., βm коэффициентов регрессии (эмпирические коэффициенты регрессии); e - оценка отклонения ε.

При выполнении предпосылок  МНК относительно ошибок εi, оценки

b0, b1, ..., bm параметров β0, β1, β2, ..., βm множественной линейной регрессии по МНК являются несмещенными, эффективными и состоятельными (т.е. BLUE-оценками).

Для оценки параметров уравнения  множественной регрессии применяют  МНК.

3.3 Оценка уравнения регрессии

 

Определим вектор оценок коэффициентов  регрессии. Согласно методу наименьших квадратов, вектор s получается из выражения:

s = (XTX)-1XTY              (32)

 

Таблица 4 - Матрица Х

1

2

20

1

3

30

1

5

40

1

2

19

1

4

36

1

3

28

1

4

35

1

8

54

1

5

41

1

4

34

1

7

48

1

6

45

1

6

47

1

7

50

1

6

36

1

3

18

1

4

21

1

3

17

1

7

41

1

5

28

1

6

33

1

8

49

1

4

23

1

7

40

1

6

32

1

8

46

1

3

16

1

7

32

1

4

16

1

5

21

1

6

27

1

7

33

1

4

19

1

6

30

1

8

42

1

5

26

1

4

20

1

6

29

1

3

16

1

7

34

1

9

47

1

8

40

1

5

17

1

6

22

1

8

32

1

9

36

1

7

29

1

5

19

1

6

24

1

7

28

1

8

33

1

9

40

1

6

23

1

5

18

1

9

41

1

5

18

1

6

17

1

9

29

1

8

25

1

7

22

1

6

17

1

7

21

1

9

30

1

8

26

1

8

19

1

6

16

1

7

16

1

8

20

1

7

19

1

8

21

1

8

22

1

7

17

1

8

16

1

7

17

1

9

18

1

10

21

1

9

20

1

8

16

1

9

18

1

10

19


 

Таблица 5 - Матица Y

1

 

}12 стр.

1

 

2

 

}11 стр.

2

 

3

 

}13 стр.

3

 

4

 

}11 стр.

4

 

5

 

}7 стр.

5

 

6

 

}6 стр.

6

 

7

 

}3 стр.

7

 

8

 

8

 

8

 

 

Таблица 6 - Матрица XT

 

Умножаем матрицы, (XTX) (табл. 6, 4).

 

 

 

В матрице,  (XTX) число 80, лежащее на пересечении 1-й строки и 1-го столбца, получено как сумма произведений элементов 1-й строки матрицы XT и 1-го столбца матрицы X.

Умножаем матрицы,  (XTY) (табл. 6, 5).

 

 

 

Находим обратную матрицу (XTX)-1

 

Таблица 6 – Матрица (XTX)-1

0.19

-0.0177

-0.00245

-0.0177

0.00349

-0.000162

-0.00245

-0.000162

0.000126


 

Вектор оценок коэффициентов  регрессии равен

 

s = y(x)              (33)

 

 

 

Уравнение регрессии:

 

Y = 2.59 + 0.82X1-0.15X2                                  (34)

 

  Уравнение регрессии получено.

3.4 Матрица парных коэффициентов корреляции

 

Число наблюдений n = 80. Число независимых переменных в модели равно 2, а число регрессоров с учетом единичного вектора равно числу неизвестных коэффициентов. С учетом признака Y, размерность матрицы становится равным 4. Матрица, независимых переменных Х имеет размерность (80 х 4). Матрица ХTХ определяется непосредственным умножением или по следующим предварительно вычисленным суммам.

 

Таблица 7 - Матрица составленная из Y и X

1

1

2

20

1

1

3

30

1

1

5

40

1

1

2

19

1

1

4

36

1

1

3

28

1

1

4

35

1

1

8

54

1

1

5

41

1

1

4

34

1

1

7

48

1

1

6

45

1

1

6

47

1

1

7

50

1

2

6

36

1

2

3

18

1

2

4

21

1

2

3

17

1

2

7

41

1

2

5

28

1

2

6

33

1

2

8

49

1

2

4

23

1

2

7

40

1

2

6

32

1

2

8

46

1

2

3

16

1

3

7

32

1

3

4

16

1

3

5

21

1

3

6

27

1

3

7

33

1

3

4

19

1

3

6

30

1

3

8

42

1

3

5

26

1

3

4

20

1

3

6

29

1

3

3

16

1

3

7

34

1

3

9

47

1

3

8

40

1

4

5

17

1

4

6

22

1

4

8

32

1

4

9

36

1

4

7

29

1

4

5

19

1

4

6

24

1

4

7

28

1

4

8

33

1

4

9

40

1

4

6

23

1

4

5

18

1

4

9

41

1

5

5

18

1

5

6

17

1

5

9

29

1

5

8

25

1

5

7

22

1

5

6

17

1

5

7

21

1

5

9

30

1

5

8

26

1

6

8

19

1

6

6

16

1

6

7

16

1

6

8

20

1

6

7

19

1

6

8

21

1

6

8

22

1

6

7

17

1

7

8

16

1

7

7

17

1

7

9

18

1

7

10

21

1

7

9

20

1

8

8

16

1

8

9

18

1

8

10

19


 

Таблица 8 - Транспонированная матрица

 

Таблица 9 - Матрица ATA

80

289

509

2221

289

1359

2029

7064

509

2029

3543

14525

2221

7064

14525

70135


 

Полученная матрица имеет  следующее соответствие:

 

Таблица 10 – Таблица соответствия

∑n

∑y

∑x1

∑x2

∑y

∑y2

∑x1 y

∑x2 y

∑x1

∑yx1

∑x1 2

∑x2 x1

∑x2

∑yx2

∑x1 x2

∑x2 2


 

Найдем парные коэффициенты корреляции.

 

Таблица 11 - Таблица расчетов

Признаки 

x и y

∑xi

 

∑yi

 

∑xiyi

 

Для y и x1

509

6.36

289

3.61

2029

25.36

Для y и x2

2221

27.76

289

3.61

7064

88.3

Для x1  и x2

2221

27.76

509

6.36

14525

181.56


 

Таблица 12 - Таблица расчетов

Признаки x и y

         

Для y и x1

3.81

3.94

1.95

1.98

0.61

Для y и x2

105.93

3.94

10.29

1.98

-0.59

Для x1и x2

105.93

3.81

10.29

1.95

0.25

Информация о работе Измерение и прогнозирование в статистических исследованиях