Корреляционный анализ данных

Автор работы: Пользователь скрыл имя, 31 Марта 2014 в 09:25, курсовая работа

Описание работы

Слово корреляция ввел английский биолог-статист Френсис Гальтон от английского correlation (соотношение, связь).
Корреляция – статистическая зависимость между случайными величинами, не имеющего строго функционального характера, при котором изменение одной из случайных величин приводит к изменению материального ожидания другой.
Корреляционная связь − это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.
Корреляционные связи различаются по форме, направлению и степени (силе).
Принято различать следующие виды зависимости:
1) Парная корреляция – связь между двумя признаками, между результативным и факторным или между двумя факторными.
2) Частная корреляция – зависимость между результативным или одним факторным признаком при фиксированном значении другого факторного признака.
3) Множественная корреляция – зависимость результативного признака от двух и более факторных признаков, включенных в исследование.

Файлы: 1 файл

Корреляционный анализ данных.docx

— 58.50 Кб (Скачать файл)

Корреляционный анализ данных

 о затратах на производство  картофеля.

1.1 Корреляционно-регрессионный  анализ

 

Слово корреляция ввел английский биолог-статист Френсис Гальтон от английского correlation (соотношение, связь).

Корреляция – статистическая зависимость между случайными величинами, не имеющего строго функционального характера, при котором изменение одной из случайных величин приводит к изменению материального ожидания другой.

Корреляционная связь − это согласованное изменение двух признаков, отражающее тот факт, что изменчивость одного признака находится в соответствии с изменчивостью другого.

Корреляционные связи различаются по форме, направлению и степени (силе).

Принято различать следующие виды зависимости:

  1. Парная корреляция – связь между двумя признаками, между результативным и факторным или между двумя факторными.
  2. Частная корреляция – зависимость между результативным или одним факторным признаком при фиксированном значении другого факторного признака.
  3. Множественная корреляция – зависимость результативного признака от двух и более факторных признаков, включенных в исследование.

Регрессионный анализ − метод моделирования измеряемых данных и исследования их свойств. Данные состоят из пар значений зависимой переменной (переменной отклика) и независимой переменной (объясняющей переменной). Регрессионная модель есть функция независимой переменной и параметров с добавленной случайной переменной. Параметры модели настраиваются таким образом, что модель наилучшим образом приближает данные.

Регрессионный анализ − раздел математической статистики и машинного обучения. Предполагается, что зависимая переменная есть сумма значений некоторой модели и случайной величины. Относительно характера распределения этой величины делаются предположения, называемые гипотезой порождения данных. Для подтверждения или опровержения этой гипотезы выполняются статистические тесты, называемые анализом остатков.

Ранговые коэффициенты связи.

Ранжирование − это процедура упорядочения объектов изучения, которая выполняется на основе предпочтения. Ранг − это порядковый номер значений признака, расположенных в порядке возрастания или убывания их величин. Если значения признака имеют одинаковую количественную оценку, то ранг всех этих значений принимается равным средней арифметической из соответствующих номеров мест, которые они определяют. Данные ранги называются связными.

Среди непараметрических методов оценки тесноты связи наибольшее значение имеют ранговые коэффициенты Спирмена(ρxy) и Кендалла (τxy). Эти коэффициенты могут быть использованы для определения тесноты связи как между количественными, так и между качественными признаками (рейтинги, уровни образования, квалификации и т.п.).

Коэффициент корреляции рангов (коэффициент Спирмена) рассчитывается по формуле:

                                     (13)

di2 - квадраты разности рангов;

n - число наблюдений (число пар рангов).

Коэффициент Спирмена принимает значения в интервале [−1; 1] .

Ранговый коэффициент корреляции Кендалла (τxy) также может использоваться для измерения взаимосвязи между качественными и количественными признаками, характеризующими однородные объекты и ранжированные по одному принципу. Расчет рангового коэффициента Кендалла осуществляется по формуле:

                                   (14)

n − число наблюдений;

S − сумма разностей между числом последовательностей и числом инверсий по второму признаку.

2.2 Многолетние насаждения

Многолетними насаждениями сельскохозяйственного назначения называются насаждения искусственной посадки, выращиваемые для получения продукции в течение длительного периода времени.

К многолетним насаждениям сельскохозяйственного назначения не относятся лесные многолетние насаждения древесных и кустарниковых пород как естественно возобновляемые, так и искусственно выращиваемые для защиты полей (полезащитные полосы), а также ветрозащитные и водоохранные насаждения, лесные полосы для защиты дорог и лесные насаждения, выращиваемые для получения древесины. Они принадлежат к другой отрасли – лесному хозяйству и учитываются статистикой лесных насаждений.

Многолетние насаждения по характеру получаемой продукции подразделяются на следующие группы:

  1. плодовые;
  2. ягодные;
  3. виноградные;
  4. шелковица (тутовник);
  5. чайные;
  6. хмель.

Продукция первых трех групп непосредственно предназначается для продовольственных целей или идет на переработку в отрасли пищевой промышленности. Четвертая группа является кормовой базой шелководства. Две последние группы – это источники технического сырья для пищевой промышленности.

1.2 Показатели  тесноты связи. Коэффициенты рангов

 

Показатели степени тесноты связи дают возможность охарактеризовать зависимость вариации результативного признака от вариации признака-фактора. В известной мере они дополняют и развивают уже отмеченные приемы обнаружения связи.

  1. Линейный коэффициент корреляции − характеризует тесноту и направление связи между двумя корреляционными  признаками в случае наличия между ними линейной зависимости.

В теории разработаны и на практике применяются различные модификации формулы расчета данного коэффициента:

                                         

Производя расчет по итоговым значениям исходных переменных,

линейный коэффициент корреляции можно вычислить по формуле:

                 (2)

Между линейным коэффициентом корреляции и коэффициентом регрессии существует определенная зависимость, выражаемая формулой:

                                                                    (3)

ai − коэффициент регрессии в уравнении связи;

σxi − среднее квадратичное  отклонение соответствующего, статистически существенного, факторного признака.

  1. Эмпирическое корреляционное отношение рассчитывается по данным группировки, когда δ2 характеризует отклонения групповых средних результативного показателя от общей средней:

                          (4)

η − корреляционное отношение;

σ2 − общая дисперсия;

σ2 − средняя из частных (групповых) дисперсий;

δ 2 − межгрупповая дисперсия (дисперсия групповых средних).

 

Все эти дисперсии есть дисперсии результативного признака.

  1. Теоретическое корреляционное отношение определяется по формуле:

                                                                  (5)

δ 2 − дисперсия выровненных значений результативного признака, то есть рассчитанных по уравнению регрессии;

σ 2 − дисперсия эмпирических (фактических) значений результативного признака;

ост σ2 − остаточная дисперсия.

  1. Множественный коэффициент корреляции вычисляется при наличии линейной связи между результативным и несколькими факторными признаками, а также между каждой парой факторных признаков. Множественный коэффициент корреляции для двух факторных признаков вычисляется по формуле:

                         (6)

ryxi - парные коэффициенты корреляции между признаками.

Множественный коэффициент корреляции изменяется в пределах от 0 до 1 и по определению положителен: 0 ≤ R ≤1. Приближение R к единице свидетельствует о сильной зависимости между признаками.

  1. Частные коэффициенты корреляции характеризуют степень тесноты связи между двумя признаками x1 и x 2 при фиксированном значении других (k − 2) факторных признаков, то есть когда влияние x 3 исключается, то есть оценивается связь между x1 и x 2 в «чистом виде». В случае зависимости y от двух факторных признаков x1 и x 2 коэффициенты частной корреляции имеют вид:

                                      (7)

 

R − парные коэффициенты корреляции между указанными в индексе переменными.

В первом случае исключено влияние факторного признака x 2 , во втором  x1. При наличии соотношения между вариацией качественных признаков говорят об их ассоциации, взаимосвязанности. Для оценки связи в этом случае используют ряд показателей.

 


Информация о работе Корреляционный анализ данных