Измерение и прогнозирование в статистических исследованиях

Автор работы: Пользователь скрыл имя, 20 Июня 2013 в 08:36, курсовая работа

Описание работы

Статистика рассматривается как наука о методах изучения массовых явлений. Некоторые процессы, наблюдаемые в массовом количестве, обнаруживают определенные закономерности, которые, однако, невозможно заметить в отдельном случае или же при небольшом числе наблюдений. Явления, которые в случае событий массового характера отличаются определенной закономерностью, однако не обнаруживаются на основе единичного наблюдения, называются массовыми явлениями. Сама такая закономерность называется статистической закономерностью.

Содержание работы

ВВЕДЕНИЕ 6
1 Измерение в статистических исследованиях 11
1.1 Типы взаимосвязей. Корреляционный анализ 11
1.2 Расчет коэффициента парной корреляции и его статистическая проверка 14
1.3 О ложной корреляции (влияние «третьего фактора») 15
1.4 Измерение степени тесноты связи между качественными признаками (ранговая корреляция) 16
2 Прогнозирование в статистических исследованях 18
2.1 Регрессионный анализ данных 19
2.2 Множественная регрессия 24
2.3 Проблемы множественной регрессии 26
3 Практическая часть 29
3.1 Уравнение множественной регрессии 29
3.2 Предпосылки МНК 29
3.3 Оценка уравнения регрессии 30
3.4 Матрица парных коэффициентов корреляции 34
3.4.1 Модель регрессии в стандартном масштабе 37
3.5 Анализ параметров уравнения регрессии 39
3.5.1 Показатели тесноты связи факторов с результатом 42
3.5.2 Частные коэффициенты эластичности 42
3.5.3 Стандартизированные частные коэффициенты регрессии 42
3.5.4 Частные коэффициенты корреляции 43
3.5.5 Индекс множественной корреляции (множественный коэффициент корреляции) 44
3.5.6 Коэффициент детерминации 45
3.6 Оценка значения результативного признака при заданных знчениях факторов 45
3.7 Проверка гипотез относительно коэффициентов уравнения регрессии (проверка значимости параметров) 46
3.8 Проверка общего качества уравнения множественной регресии 47
3.9 Решение задачи с использованием программы (язык С++) 48
ЗАКЛЮЧЕНИЕ 55
СПИСОК ИСПОЛЬЗОВАННОЙ ЛИТЕРАТУРЫ 56

Файлы: 1 файл

Диплом-1.docx

— 533.06 Кб (Скачать файл)

Процедуру установления корреляционной зависимости принято называть проверкой гипотезы. Ее принято проводить в следующей последовательности:

  • вычисление линейного коэффициента парной корреляции (КПК) между совокупностями случайных величин xi и yi;
  • его статистическая оценка (проверка значимости).

Статистическую оценку КПК проводят путем сравнения его абсолютной величины с табличным (или критическим) показателем rкрит, значения которого отыскиваются из специальной таблицы.

Если окажется, что ⎪rрасч ≥ rкрит⎪, то с заданной степенью вероятности (обычно 95 %) можно утверждать, что между рассматриваемыми числовыми

совокупностями существует значимая линейная связь. Или по-другому  − гипотеза о значимости линейной связи не отвергается.

В случае же обратного соотношения, т.е. при ⎪rрасч < rкрит⎪, делается заключение об отсутствии значимой связи.

1.3 О ложной корреляции (влияние «третьего фактора»)

 

Часто корреляцию и причинную  обусловленность считают синонимами. Этот тезис имеет определенные основания, поскольку если нечто является причиной чего-либо другого, то можно говорить о связи первого и второго и, следовательно, об их коррелированности (например, действие и результат, проверка и качество, капиталовложения и прибыль, окружающая среда и прибыль).

Однако корреляция может  быть и без причинной обусловленности. Это можно представить так: корреляция − лишь число, которое указывает на то, что большим значениям одной переменной соответствуют большие (или же меньшие) значения другой переменной. Корреляция не может объяснить,

почему эти две переменные связаны между собой. Так, корреляция не объясняет, почему капиталовложения порождают прибыль (или наоборот). Корреляция просто констатирует, что между этими величинами существует определенное соответствие. И не более того.

Одним из возможных оснований  для существования «корреляции  без причинной обусловленности» является наличие некоторого скрытого, ненаблюдаемого, третьего фактора, который «маскируется» под другую переменную. В результате фиксируется так называемая «ложная корреляция».

В качестве статистического  показателя может быть использован  также коэффициент (индекс) детерминации (причинности), который равен квадрату коэффициента корреляции. Он показывает, в какой мере изменчивость у (результативного признака) объясняется поведением х (факторного признака), или иначе: какая часть общей изменчивости у вызвана собственно влиянием х. Этот показатель вычисляется путём простого возведения в квадрат коэффициента корреляции. Тем самым доля изменчивости у, определяемая выражением 1− , оказывается необъясненной. Величина этого коэффициента меняется в пределах от 0 до 1. Чем ближе он к единице, тем, следовательно, меньше в нашей модели процесса влияние неучтенных факторов и тем больше оснований считать, что указанная зависимость отражает степень эффективности воздействия изучаемого фактора.

1.4 Измерение степени тесноты связи между качественными признаками (ранговая корреляция)

 

При определении корреляционной зависимости нужно было иметь числовой набор двух совокупностей. Однако возможны случаи, когда имеющиеся данные не поддаются выражению числом единиц. Это обстоятельство заставляет прибегать к использованию так называемых непараметрических методов. Они позволяют измерять интенсивность взаимосвязи между качественными (атрибутивными) признаками. В основу непараметрических методов положен принцип нумерации значений статистического ряда. Каждой единице массива присваивается порядковый номер (ранг) в ряду, который будет упорядочен (ранжирован) по уровню признака. Следовательно, важным условием является возможность сделать рассматриваемые совокупности упорядоченными.

Предварительное представление  о наличии или отсутствии связи  между рассматриваемыми массивами можно получить, если сопоставить последовательность взаимного расположения рангов факторного (воздействующего) и результативного (подверженного влиянию) признаков. Для этого ранги измеренных значений факторного признака располагают в порядке возрастания. Если ранги результативного признака обнаруживают тенденцию к увеличению, то можно говорить о наличии прямой связи. Если картина противоположная, то и связь толкуется как обратная.

В статистике известны коэффициенты корреляции, основанные на использовании рангов. Одним из таковых является коэффициент корреляции

рангов Спирмена. Он основан на рассмотрении разности рангов значений факторного и результативного признаков и ее обозначают как di.

Представим себе, что имеются  две выборки, которые классифицированы по каким-то двум признакам: х и у.

Выборки (их объем): 1, 2, 3, …, n

1-я совокупность (признак х): х1, х2 , х3, …, хn

2-я совокупность (признак у): у1, у2, у3, …, уn.

Здесь оба параметра х и у принимают только целочисленные значения в количестве, равном n. Тогда формула коэффициента корреляции рангов Спирмена (этот коэффициент именуют р) имеет следующий вид:

 

,      (5)

 

где .

Коэффициент коррелляции рангов Спирмена позволяет измерить взаимосвязь между качественными признаками.   

2 Прогнозирование в статистических исследованях

 

Под прогнозом понимается научно обоснованное описание возможных  состояний объектов в будущем, а также альтернативных путей и сроков достижения этого состояния. Процесс разработки прогнозов называется прогнозированием. Прогнозирование – вид познавательной деятельности человека, направленной на формирование прогнозов развития объекта, на основе анализа тенденций его развития. Прогнозирование должно отвечать на два вопроса: что вероятнее всего можно ожидать в будущем? Каким образом нужно изменить условия, чтобы достичь заданного состояния? Прогнозирование является важным связующим звеном между теорией и практикой во всех областях жизни общества. В зависимости от степени конкретности и характера воздействия на ход исследуемых процессов и явлений различают три формы предвидения: гипотезу (общенаучное предвидение), прогноз и план. Эти формы предвидения тесно связаны в своих проявлениях друг с другом и с исследуемым объектом в системе управления и планирования, представляют собой последовательные ступени познания поведения объекта в будущем [6].

Задачи математико-статистического прогнозирования следующие:

  • выявление перспектив ближайшего или более отдаленного будущего в исследуемой области на основе реальных процессов действительности;
  • выработка оптимальных тенденций и перспективных планов с учетом составленного прогноза и оценки принятого решения с позиций его последствий в прогнозируемом периоде.

Статистические данные могут  быть представлены в различных формах. Набор данных содержит одно или несколько  значений для каждого из отдельных объектов. В качестве таких объектов могут выступать люди, города, компьютеры, книги или все, что представляет интерес для изучения. Эти объекты называют элементарными единицами. Для каждого объекта регистрируют один и тот же признак или признаки. Признак, который регистрируется для каждого из объектов, называют переменной.

Наборы данных классифицируют по следующим  признакам:

  • по количеству переменных (одномерные, двумерные или многомерные наборы данных);
  • по типу данных (количественные или качественные);
  • по тому, важна ли упорядоченность данных во времени или нет.

Одномерные наборы данных содержат только один признак для каждого объекта. Эти данные позволяют определить типичное значение признака, насколько значения отличаются друг от друга, требуют ли отдельные данные особого внимания.

Наборы двумерных данных содержат информацию о двух признаках для каждого из объектов. Кроме того, что они дают возможность получить два набора одномерных данных, двумерные данные позволяют установить, существует ли связь между двумя переменными, насколько сильно связаны переменные, можно ли предсказать значение одной переменной по значению другой и если да, то с какой надежностью.

Многомерные данные содержат информацию о трех или более признаках для каждого объекта. В дополнение к той информации, которую можно извлечь из одномерных и двумерных наборов, многомерные данные можно использовать для получения информации о том, существует ли простая зависимость между этими признаками, насколько они взаимосвязаны (речь идет не только о попарной взаимосвязи признаков, но и о зависимости в совокупности), можно ли предсказать значение одной переменной на основании значений остальных.

Так как одномерные данные не поддаются количественному статистическому прогнозу, будем рассматривать двумерные и многомерные данные.

2.1 Регрессионный анализ данных

 

Регрессионный анализ заключается  в прогнозировании одной переменной на основании другой.

Линейный регрессионный анализ прогнозирует значение  одной переменной на основании другой с помощью прямой линии. Наклон этой линии, b, выражается в единицах измерения y на одну единицу x и характеризует крутизну подъема или спуска (если b отрицательное) линии. Сдвиг, a(b0), равен значению, которое принимает y при x, равном 0. Уравнение прямой линии имеет следующий вид:

 

y = Сдвиг + (Наклон)(x)=a+bx    (6)

 

В случае криволинейных зависимостей применяются математические функции следующего вида:

гиперболическая

 

y = a + b/x;       (7)

 

показательная

 

y = a + bx;       (8)

 

степенная

 

y = axb;       (9)

 

параболическая

 

y = a + b1x1 + b2x2;           (10)

 

логарифмическая

 

y = a + blgx;             (11)

 

экспоненциальная

 

y = aexp (bx)                    (12)

 

Линия наименьших квадратов характеризуется наименьшей из всех  возможных линий суммой возведенных в квадрат ошибок прогнозирования по  вертикали и используется как лучшая линия прогнозирования, основанная на данных [6]. Наклон b называют также коэффициентом регрессии y по x, а сдвиг a (отрезок, отсекаемый на оси y) называют также постоянным членом регрессии. Ниже приведены уравнения для наклона и сдвига, соответствующие линии  наименьших квадратов.

 

              (13)

 

                (14)

 

Формула для линии наименьших квадратов имеет следующий вид:

 

          (15)

 

Линия наименьших квадратов не является идеальным описанием данных. Она, несомненно, является полезной  характеристикой  основной тенденции, но все же, не учитывает  случайные  отклонения данных от линии. Каждая из точек данных характеризуется  остатком — ошибкой прогнозирования, указывающей, насколько выше или ниже линии находится точка (табл. 2). Существуют две меры соответствия линии наименьших квадратов имеющимся данным.

 

Таблица 2 - Ошибки прогнозирования

Стандартная ошибка оценки (Se)

Коэффициент детерминации (

)

Приблизительно указывает величину ошибок прогнозирования (остатков) для  имеющихся данных в тех же единицах, в которых измерена переменная y. Соответствующая формула расчета:

 (для вычисления)

(интерпретация)

Показывает, в какой мере изменчивость y объясняется поведением x. Этот показатель вычисляется путем простого возведения в квадрат коэффициента корреляции, r.

=


 

Чтобы статистический вывод был  обоснованным, анализируемые данные должны представлять собой случайную  выборку из интересующей нас  генеральной совокупности. Как всегда, это гарантирует, что данные точным и  предсказуемым образом представляют интересующую нас генеральную совокупность.

Линейная модель указывает, что  наблюдаемое значение y определяется связью в генеральной совокупности плюс случайная ошибка, имеющая нормальное распределение. Существуют параметры генеральной совокупности, соответствующие наклону и сдвигу линии наименьших квадратов, построенной на данных выборки:

 

y=(α+βx)+ε=(связь генеральной совокупности + случайность),            (16)

 

где ε имеет нормальное распределение со средним значением, равным 0, и постоянным стандартным отклонением σ.

Линейность является базовым допущением для статистических выводов в  регрессионном и корреляционном анализе. Построение доверительных  интервалов и проверка статистических гипотез для коэффициента регрессии  предполагают, что линейность справедлива для генеральной совокупности. В частности, доверительные интервалы и проверки гипотез будут не обоснованы, если  соответствующая взаимосвязь окажется нелинейной или будет характеризоваться неодинаковой вариацией. Необходимо учитывать эти особенности: если  линейная модель не соответствует данным, то выводы, сделанные на основе регрессионного анализа, могут оказаться неверными.

Статистические выводы (использование  доверительных интервалов и  проверки статистических гипотез) относительно коэффициентов линии наименьших квадратов основываются, как обычно, на их стандартных ошибках и значениях из t-таблицы для n - 2 степеней свободы. Стандартная ошибка коэффициента наклона, Sb указывает  приблизительную величину вызванного случайностью выборки отклонения оценки наклона, b (коэффициент регрессии, вычисленный на основе выборки), от наклона в  генеральной совокупности, β, вызванного случайным характером выборки. Вычисляется по следующей формуле:

 

               (17)

 

Стандартная ошибка сдвига, , указывает приблизительно, насколько далеко оценка а отстоит от α, истинной величины сдвига в генеральной совокупности. Вычисляется по следующей формуле:

 

              (18)

 

Доверительный интервал для наклона  в генеральной совокупности, β:

от   b – tSb    до   b + tSb.             (19)

Доверительный интервал для сдвига в генеральной совокупности, α:

Информация о работе Измерение и прогнозирование в статистических исследованиях