Автор работы: Пользователь скрыл имя, 27 Декабря 2012 в 21:03, реферат
Для достоверного отображения объективно существующих в экономике процессов необходимо выявить существенные взаимосвязи между ними. В естественных науках часто речь идет о функциональной связи, когда каждому значению одной переменной соответствует вполне определенной значение другой. В экономике в большинстве случаев между переменными величинами существуют зависимости, когда каждому значению одной переменной соответствует не какое-то определенное, а множество возможных значений другой переменной. Такая зависимость получила название стохастической.
Вступление 2
Теоретическая часть. 3
Многомерный корреляционный анализ 3
Многошаговый регрессионный анализ. 4
Многомерный регрессионный анализ 5
Метод отсева факторов по t-критерию 9
Практическая часть. 10
Вариационные характеристики. 10
Корреляционный анализ. 14
Многомерный регрессионный анализ. 15
Многошаговый регрессионный анализ. 16
Начальный корреляционный анализ. 17
Приложение: Олимп курсовая итог. 21
Использованная литература: 30
Наиболее оправданным является использование многошагового регрессионного анализа, основанного на оценке значимости коэффициентов регрессии с помощью t-критерия Стьюдента. Данный метод и был использован при анализе продолжительности жизни населения стран Африки в данной курсовой работе, потому что его применение четко формализовано, и в то же время на различных стадиях построения модели можно производить качественный экономический анализ. Рассмотрим его более подробно.
Итак, на первом этапе
строится уравнение регрессии по
переменным, предположительно влияющим
на исследуемую зависимую
Применение t-критерия при отборе существенных факторов основано на следующей предпосылке регрессионного анализа: если выполняется условие, что Ei распределены нормально, то величина распределена по закону Стьюдента с n = n-k-1 степенями свободы. По этому критерию можно проверить гипотезу о существенном отличии от нуля коэффициента регрессии bj при некотором заданном уровне значимости и n-k-1 степенях, то коэффициент регрессии bj признается значимым.
Простейшая схема проверки сводится к построению доверительного интервала для каждого коэффициента регрессии и проверке гипотезы о том, находится ли нуль внутри построенного интервала. Если это так, то данный коэффициент регрессии признается незначимым или же его значимость подвергается сомнению и выявляется на следующих этапах анализа.
Схема отбора значимых факторов
в уравнение регрессии с
Однако предварительно следует проранжировать коэффициенты регрессии по величине tH и в первую очередь отсеять тот фактор, для которого коэффициент регрессии незначим и tH имеет наименьшее значение. Затем уравнение регрессии пересчитывается снова (уже без исключенного фактора), и производится оценка коэффициентов регрессии по t-критерию. Такую процедуру повторяют до тех пор, пока все коэффициенты регрессии в уравнении не окажутся значимыми.
При этом на каждом шаге, кроме формальной статистической проверки значимости коэффициентов регрессии, проводится экономический анализ несущественных факторов и устанавливается порядок их исключения. В некоторых случаях значение tH находится вблизи tкр, и, с точки зрения содержательности модели, этот фактор можно оставить для последующей проверки его значимости в сочетании с другим набором факторов. Возможность такого экономического анализа при формальной статистической процедуре отсеивания незначимых факторов по t-критерию является большим преимуществом этого метода многошагового регрессионного анализа.
Вместе с тем следует отметить, что несущественность коэффициента регрессии по t-критерию не всегда является надежным основанием для исключения переменной из дальнейшего анализа. Поэтому в ряде случаев для проведения многошагового регрессионного анализа с помощью t-критерия предполагается использовать некоторые дополнительные эмпирические процедуры. Например, исключать переменную из уравнения регрессии лишь в том случае, когда средняя квадратическая ошибка коэффициента регрессии превышает абсолютный размер вычисленного коэффициента, то есть когда tH по абсолютной величине меньше единицы. При этом предполагается, что нет достаточных логических оснований для того, чтобы оставлять такую переменную в модели.
Для изучения корреляционного и регрессионного анализа в более подробном разрезе была взята совокупность стран Африки.
Задачей проводимого исследования является выявление и изучение зависимости данных экономических явлений.
При проведении
данного исследования была
Алжир, Ангола, Генин, Ботсвана, Бурунди, Буркина Фасо, Габон, Гамбия, Гана, Гвинея, Гвинея-Бисау, Джибути, Египет, Заир, Замбия, Зимбабве, Кабо-Верде, Кения, Коморские острова, Конго, Кот-д’Ивуар, Лесото, Либерия, Ливия.
Характеризующими являются следующие признаки: средняя продолжительность жизни (лет), численность населения (тыс. человек), доля городского населения (%), число медицинских работников на 10 тысяч населения (чел.), доля неграмотных (%), среднегодовой индекс роста производства продовольствия (%).
Но для упрощения проведения расчетов и всего исследования, а также выявления связи стоит разделить вышеописанные признаки на факторный и результативные и заменить их условными переменными (у, х1, х2, х3, х4, х5):
результативный признак
(у) представляет собой
факторные признаки (х):
х1: численность населения (тыс. человек);
х2: доля городского населения (%);
х3: число медицинских работников на 10 тысяч населения (чел.);
х4: доля неграмотных (%);
х5: среднегодовой индекс роста производства продовольствия (%).
Начальные данные представлены в таблице:
┌────┬────────┬───────────┬──
│ N │ y │ x1 │ x2 │ x3 │ x4 │ x5 │
├────┼────────┼───────────┼──
│ 1 │ 63.00 │ 23102.00 │ 60.85 │ 32.70 │ 55.30 │ 87.00 │
│ 2 │ 44.50 │ 9226.00 │ 21.00 │ 12.70 │ 97.00 │ 58.00 │
│ 3 │ 46.00 │ 4304.00 │ 30.80 │ 7.50 │ 75.20 │ 108.00 │
│ 4 │ 56.50 │ 1169.00 │ 29.50 │ 35.80 │ 59.30 │ 71.00 │
│ 5 │ 48.50 │ 5001.00 │ 2.29 │ 3.80 │ 77.40 │ 101.00 │
│ 6 │ 47.20 │ 8305.00 │ 8.48 │ 8.10 │ 91.20 │ 92.00 │
│ 7 │ 51.00 │ 1058.00 │ 35.80 │ 22.30 │ 87.60 │ 98.00 │
│ 8 │ 37.00 │ 670.00 │ 18.50 │ 15.10 │ 85.20 │ 62.00 │
│ 9 │ 54.00 │ 13704.00 │ 35.86 │ 37.60 │ 69.80 │ 73.00 │
│ 10 │ 42.20 │ 6380.00 │ 19.07 │ 4.20 │ 80.00 │ 91.00 │
│ 11 │ 45.00 │ 925.00 │ 23.80 │ 38.60 │ 71.60 │ 83.00 │
│ 12 │ 64.50 │ 372.00 │ 73.95 │ 72.20 │ 80.00 │ 75.00 │
│ 13 │ 60.60 │ 50740.00 │ 45.37 │ 47.90 │ 56.50 │ 89.00 │
│ 14 │ 52.00 │ 32461.00 │ 39.50 │ 12.60 │ 42.10 │ 86.00 │
│ 15 │ 53.30 │ 7563.00 │ 40.40 │ 18.50 │ 56.00 │ 91.00 │
│ 16 │ 57.80 │ 8640.00 │ 19.60 │ 16.60 │ 29.20 │ 94.00 │
│ 17 │ 53.00 │ 10822.00 │ 34.60 │ 14.40 │ 59.50 │ 102.00 │
│ 18 │ 61.50 │ 348.00 │ 5.80 │ 18.80 │ 63.10 │ 83.00 │
│ 19 │ 53.30 │ 22936.00 │ 14.17 │ 11.20 │ 50.40 │ 93.00 │
│ 20 │ 52.00 │ 472.00 │ 11.53 │ 15.30 │ 41.60 │ 91.00 │
│ 21 │ 48.50 │ 1837.00 │ 37.27 │ 31.70 │ 84.40 │ 83.00 │
│ 22 │ 52.30 │ 11142.00 │ 37.62 │ 13.50 │ 58.80 │ 102.00 │
│ 23 │ 50.60 │ 1619.00 │ 4.52 │ 0.50 │ 48.00 │ 78.00 │
│ 24 │ 51.00 │ 2349.00 │ 32.94 │ 11.30 │ 74.60 │ 91.00 │
│ 25 │ 60.80 │ 4083.00 │ 52.40 │ 64.80 │ 49.90 │ 151.00 │
└────┴────────┴───────────┴──
Реализация алгоритма многомерного регрессионного анализа начинается с расчета важнейших статистических характеристик исходной информации и матрицы выборочных парных коэффициентов корреляции.
Рассмотрим более подробно вариационные характеристики переменной у:
. число
наблюдений
. среднее
значение
. верхняя
оценка среднего
. нижняя
оценка среднего
. среднеквадратическое отклонение 6.6138
. дисперсия
. дисперсия (несмещ. оценка) 45.5651
. среднекв. откл. (несмещ. оценка) 6.7502
. среднее линейное отклонение 5.0938
. моменты начальные
.
2-го поpядка
.
3-го поpядка
.
4-го поpядка
. моменты центpальные
. 3-го поpядка -2.1613e+01
.
4-го поpядка
. коэффициент асимметрии
.
значение
.
несмещенная оценка
. среднекв. отклонение 0.4637
. коэффициент эксцесса
.
значение
.
несмещенная оценка
. среднекв. отклонение 0.9017
. коэффициенты вариации
.
по pазмаху
.
сpеднему линейному откл.
. сpеднеквадp. откл. 0.1266
. медиана
. мода
. минимальное значение 37.0000
. максимальное значение 64.5000
. размах
Проанализируем их.
Средняя продолжительность жизни в странах Африки – 52,244 года. Она вычисляется по формуле средней арифметической невзвешенной:
_
у = Σуi/n
где n – объем исследуемой совокупности.
Дисперсия в нашем случае равна 43,7425. Она представляет собой средний квадрат отклонений индивидуальных значений признака от их средней величины и вычисляется по формуле:
_
σ2 = Σ (у I – у )2 / n
Среднее квадратическое отклонение представляет собой корень второй степени из дисперсии, и в нашем случае σ = 6,6138, то есть значение продолжительности жизни в среднем отклоняется на 6,6138 лет.
А среднее линейное отклонение вычисляется по формуле:
_ _
d = Σ |уi -y| / n,
которое в нашем случае равно 5,0938 и представляет собой среднюю величину из отклонений вариантов признака от их средней.
Коэффициент вариации среднеквадратического отклонения в исследуемой нами совокупности равен Vσ = 0,1266 или 12,66%, который вычисляется по формуле:
_
Vσ = σ / у * 100%.
Коэффициент вариации характеризует не только сравнительную оценку вариации, но и дает характеристику однородности совокупности. Совокупность считается однородной, если коэффициент вариации не превышает 33%, то есть наша совокупность является однородной.
Мода – значение признака, наиболее часто встречающегося в совокупности. Она рассчитывается по формуле:
Мо = уМо + iМо * (fМо – fМо-1)/(fМо – fМо-1)*(fМо – fМо+1)
То есть по Африке наиболее часто встречающееся значение продолжительности жизни равно 48,5 лет.
Медиана – значение признака, приходящегося на середину ранжированной (упорядоченной) совокупности.
Ме = уМе + iМе * (0,5 Σf – SМе-1)/fМе.
Таким образом, в нашем
случае в половине стран Африки
население имеет среднюю
Начальным моментом порядка k случайной величины х называют математическое ожидание величины хк:
νк = М (хк),
в частности ν1 = М (х), ν2 = М (х2).
В нашем случае
начальные моменты равны:
. 2-го поpядка
. 3-го поpядка
. 4-го поpядка
Центральным моментом порядка k случайной величины х называют математическое ожидание величины (х – (М (х))к, в частности
μ1 = М[х – М (х)] = 0; μ2 = М[ ( х – М (х))2] = D (х).
В нашем случае центральные моменты равны:
. 3-го поpядка -2.1613e+01
. 4-го поpядка
Теперь рассмотрим нашу совокупность на предмет симметрии.
Симметричным называется распределение, в котором частоты любых двух вариантов, равностоящих в обе стороны от центра распределения, равны между собой. В статистике для характеристики асимметрии используют показатели асимметрии и эксцесса.
Так как видно, что наша совокупность асимметричная, найдем степень асимметрии. Сперва используем коэффициент асимметрии: