Автор работы: Пользователь скрыл имя, 20 Июня 2013 в 08:36, курсовая работа
Статистика рассматривается как наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определенные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Явления, которые в случае событий массового характера отличаются определенной закономерностью, однако не обнаруживаются на основе единичного наблюдения, называются массовыми явлениями. Сама такая закономерность называется статистической закономерностью.
ВВЕДЕНИЕ 6
1 Измерение в статистических исследованиях 11
1.1 Типы взаимосвязей. Корреляционный анализ 11
1.2 Расчет коэффициента парной корреляции и его статистическая проверка 14
1.3 О ложной корреляции (влияние «третьего фактора») 15
1.4 Измерение степени тесноты связи между качественными признаками (ранговая корреляция) 16
2 Прогнозирование в статистических исследованях 18
2.1 Регрессионный анализ данных 19
2.2 Множественная регрессия 24
2.3 Проблемы множественной регрессии 26
3 Практическая часть 29
3.1 Уравнение множественной регрессии 29
3.2 Предпосылки МНК 29
3.3 Оценка уравнения регрессии 30
3.4 Матрица парных коэффициентов корреляции 34
3.4.1 Модель регрессии в стандартном масштабе 37
3.5 Анализ параметров уравнения регрессии 39
3.5.1 Показатели тесноты связи факторов с результатом 42
3.5.2 Частные коэффициенты эластичности 42
3.5.3 Стандартизированные частные коэффициенты регрессии 42
3.5.4 Частные коэффициенты корреляции 43
3.5.5 Индекс множественной корреляции (множественный коэффициент корреляции) 44
3.5.6 Коэффициент детерминации 45
3.6 Оценка значения результативного признака при заданных знчениях факторов 45
3.7 Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров) 46
3.8 Проверка общего качества уравнения множественной регресии 47
3.9 Решение задачи с использованием программы (язык С++) 48
ЗАКЛЮЧЕНИЕ 55
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56
В массовых процессах обычно различают два элемента: систематический (постоянный) и случайный (побочный). Систематический элемент является результатом действия основных причин, случайный элемент − следствие действия побочных причин (их сочетание и действие проявляются по-разному в каждом отдельном случае).
Статистическая закономерность проявляется более отчетливо в случае действия закона больших чисел. Этот закон отражает закономерности, присущие случайным событиям массового характера. При большом количестве наблюдений влияние случайных факторов взаимно уравновешивается, и вступают в действие главные причины, которые отражаются в некотором постоянстве средних чисел.
Для выполнения закона больших чисел важно соблюсти определенные условия:
Таким образом, не может быть хорошей статистики там, где нет достаточно многочисленных, однородных и независимых данных. Если это условие не соблюдено, то отсутствует и подлинная статистика.
В курсе общей теории статистики принято условно различать описательную и аналитическую статистику. Описательная статистика преимущественно связана с планированием исследования, сбором информации и представлением полученных результатов в виде статистических показателей. Удобная форма представления статистической информации − таблицы, графики. Задача аналитической статистики − выявить причинные связи, оценить влияние исследуемых факторов и сделать надлежащие выводы, на основании которых могут быть приняты ответственные решения. Часто исследуемый процесс представляется в аналитической форме, т.е. в виде уравнения (эмпирической формулы).
Знание статистики помогает
нам принять оптимальные
И, наконец, не следует забывать, что использование статистики становится все более важным преимуществом в конкуренции. Точность и своевременность проведенного статистического исследования позволяет компаниям решать многие задачи, в том числе позволяет делать прогнозы на будущее.
Мощным инструментальным средством при выполнении статистических исследований является компьютерная техника. В этой связи широкое распространение в деловой сфере получили специальные пакеты прикладных программ. Они позволяют обеспечить весьма впечатляющую быстроту статистических расчетов, высокую надежность и достоверность результатов, возможность легко представлять данные в аналитической, графической или табличной формах.
Исследование отдельных статистических объектов позволяет получить о них полезную информацию и описать их стандартными показателями. При этом изучаемую совокупность можно представить в виде ряда распределения путем ранжирования (в порядке возрастания или убывания анализируемого количественного признака), дать характеристику этой совокупности, указав центральные значения ряда (среднее арифметическое, медиана, мода), размах варьирования, форму кривой распределения. Такого рода сведения могут быть вполне достаточными в случаях, когда приходится иметь дело с одномерными данными (т.е. лишь с одной характеристикой, например, зарплатой) о каждой единице совокупности (скажем, о сотруднике фирмы). Когда же мы анализируем двумерные данные (например, зарплата и образование), всегда есть возможность изучать каждое измерение по отдельности − как часть одномерной совокупности данных. Однако реальную отдачу можно получить лишь при совместном изучении обоих параметров. Основное назначение такого подхода − возможность выявления взаимосвязи между параметрами.
Следовательно, помимо традиционных измерений и последующих вычислений при анализе статистических данных приходится решать проблему и более высокого уровня − выявление функциональной зависимости между воздействующим фактором и регистрируемой (изучаемой) величиной.
Зависимость одной случайной величины от значений, которые принимает другая случайная величина (физическая характеристика), в статистике называется регрессией. Если этой зависимости придан аналитический вид,
то такую форму представления изображают уравнением регрессии. Процедура поиска предполагаемой зависимости между различными числовыми совокупностями обычно включает следующие этапы:
Первый этап в указанном статистическом анализе касается выявления
так называемой корреляции, или корреляционной зависимости. Корреляция
рассматривается как признак, указывающий на взаимосвязь ряда числовых
последовательностей. Иначе говоря, корреляция характеризует силу взаимосвязи в данных. Если это касается взаимосвязи двух числовых массивов xi и yi, то такую корреляцию называют парной.
При поиске корреляционной зависимости обычно выявляется вероятная связь одной измеренной величины x (для какого-то ограниченного диапазона ее изменения, например от x1 до xn) с другой измеренной величиной y (также изменяющейся в каком-то интервале y1 … yn). В таком случае мы будем иметь дело с двумя числовыми последовательностями, между которыми и надлежит установить наличие статистической (корреляционной) связи. На этом этапе пока не ставится задача определить, является ли одна из этих случайных величин функцией, а другая – аргументом. Отыскание количественной зависимости между ними в форме конкретного аналитического выражения
y = f(x) − это задача уже другого анализа, регрессионного.
Таким образом, корреляционный анализ позволяет сделать вывод о силе взаимосвязи между парами данных х и у, а регрессионный анализ используется для прогнозирования одной переменной (у) на основании другой (х). Иными словами, в этом случае пытаются выявить причинно-следственную связь между анализируемыми совокупностями.
Принято различать два вида связи между числовыми совокупностями – это может быть функциональная зависимость или же статистическая (случайная). При наличии функциональной связи каждому значению воздействующего фактора (аргумента) соответствует строго определенная величина другого показателя (функции), т.е. изменение результативного признака всецело обусловлено действием факторного признака.
Аналитически функциональная зависимость представляется в следующем виде:
y = f(x) (1)
В случае статистической связи значению одного фактора соответствует какое-то приближенное значение исследуемого параметра, его точная величина является непредсказуемой, непрогнозируемой, поэтому получаемые показатели оказываются случайными величинами. Это значит, что изменение результативного признака у обусловлено влиянием факторного признака х лишь частично, т.к. возможно воздействие и иных факторов, вклад которых обозначен как ε:
y = ϕ(x) + ε (2)
По своему характеру корреляционные связи – это соотносительные связи. Такая зависимость графически изображается в виде экспериментальных точек, образующих поле рассеяния, или, как принято говорить, поле корреляции. Следовательно, такие двумерные данные можно анализировать с использованием диаграммы рассеяния в координатах «х – у», которая дает визуальное представление о взаимосвязи исследуемых совокупностей.
Для количественной оценки
существования связи между
совокупностями случайных величин используется специальный статистический показатель – коэффициент корреляции r. Если предполагается, что эту связь можно описать линейным уравнением типа y = a + bx (где a и b − константы), то принято говорить о существовании линейной корреляции.
Коэффициент r − это безразмерная величина, она может меняться от 0 до ±1. Чем ближе значение коэффициента к единице (неважно, с каким знаком), тем с большей уверенностью можно утверждать, что между двумя рассматриваемыми совокупностями переменных существует линейная связь. Иными словами, значение какой-то одной из этих случайных величин (y) существенным образом зависит от того, какое значение принимает другая (x).
Если окажется, что r = 1 (или −1), то имеет место классический случай чисто функциональной зависимости (т.е. реализуется идеальная взаимосвязь).
При анализе двумерной диаграммы рассеяния можно обнаружить различные взаимосвязи. Простейшим вариантом является линейная взаимосвязь, которая выражается в том, что точки размещаются случайным образом вдоль прямой линии (рис.1а). Диаграмма свидетельствует об отсутствии взаимосвязи, если точки расположены случайно, и при перемещении слева направо невозможно обнаружить какой-либо уклон (рис. 1в). Если точки на ней группируются вдоль кривой линии, то диаграмма рассеяния характеризуется нелинейной взаимосвязью (рис.1б). Такие ситуации вполне возможны.
Рисунок 1 – Типы взаимосвязей
Корреляцию и регрессию
принято рассматривать как
Если между парами совокупностей просматривается вполне очевидная связь (ранее нами это исследовалось, есть публикации на данную тему и т.д.), то, минуя стадию корреляции, можно сразу приступать к поиску уравнения регрессии. Если же исследования касаются какого-то нового процесса, ранее не изучавшегося, то наличие связи между совокупностями является предметом специального поиска. При этом условно можно выделить методы, которые позволяют оценить наличие связи качественно, и методы, дающие количественные оценки.
Чтобы выявить наличие качественной корреляционной связи между двумя исследуемыми числовыми наборами экспериментальных данных, существуют различные методы, которые принято называть элементарными. Ими могут быть приемы, основанные на следующих операциях:
Другой метод, более сложный и статистически надежный, − это количественная оценка связи посредством расчета коэффициента корреляции и его статистической проверки.
Существуют различные аналитические приемы определения коэффициента r. Известна такая формула:
– стандартное отклонение для x;
– стандартное отклонение для y;
В литературе по статистике рекомендуется использовать также и другое выражение:
В этом случае отпадает необходимость вычислять отклонения текущих (индивидуальных) значений от средней величины. Это исключает ошибку в расчетах при округлении средних величин.
Зная коэффициент корреляции, можно дать качественно-количественную оценку тесноты связи. Используются, например, специальные табличные соотношения (так называемая шкала Чеддока) (табл. 1).
Ее представление может иметь следующий вид:
Таблица 1 – Таблица соотношения
Величина коэффициента парной корреляции |
Характеристика силы связи |
До 0,3 0,3−0,5 0,5−0,7 0,7−0,9 0,9−0,99 |
Практически отсутствует Слабая Заметная Сильная Очень сильная |
Такие оценки носят общий характер и не претендуют на статистическую строгость, поскольку не дают гарантий на вероятностную достоверность. Поэтому в статистике принято использовать более надежные критерии для оценки тесноты связи, основываясь на рассчитанных значениях коэффициента парной корреляции (КПК).
Здесь может помочь только эталон, с которым можно было бы сравнить вычисленную характеристику. Статистика как раз и занимается созданием таких эталонов, которые называются критическими или табличными значениями.
Информация о работе Измерение и прогнозирование в статистических исследованиях