Если с изменением значения
одной из переменных вторая изменяется
строго определенным образом, то есть
значению одной переменной обязательно
соответствует одно или несколько точно
заданных значений другой переменной,
связь между ними является функциональной.
Корреляционной связью называют
важнейший частный случай статистической
связи, состоящей в том, что разным значениям
одной переменной соответствуют различные
средние значения другой. С изменением
значения признака х закономерным образом
изменяется среднее значение признака
у; в то время как в каждом отдельном случае
значение признака у (с различными вероятностями)
может принимать множество различных
значений.
Если же с изменением значения
признака х среднее значение признака
у не изменяется закономерным образом,
но закономерно изменяется другая статистическая
характеристика (показатели вариации,
асимметрии, эксцесса и т.п.), то связь является
не корреляционной, хотя и статистической.
Статистическая связь между
двумя признаками (переменными величинами)
предполагает, что каждый из них имеет
случайную вариацию индивидуальных значений
относительно средней величины. Если же
такую вариацию имеет лишь один из признаков,
а значения другого являются жестко детерминированными,
то говорят лишь о регрессии, но не о статистической
(тем более корреляционной) связи.
Само слово корреляция ввел
в употребление в статистику английский
биолог и статистик Френсис Гальтон в
конце 19 века. Тогда оно писалось как «corelation»
(соответствие), но не просто «связь», а
«как бы связь», то есть связь, но не в привычной
в то время функциональной форме.
Корреляционная связь между
признаками может возникать разными путями.
Важнейший путь – причинная зависимость
результативного признака (его вариации)
от вариации факторного признака.
Совершенно иная интерпретация
необходима при изучении корреляционной
связи между двумя следствиями общей причины.
Данную корреляцию нельзя интерпретировать
как связь причины и следствия; оба признака
– следствия общей причины.
Третий путь возникновения
корреляции – взаимосвязь признаков,
каждый из которых и причина, и следствие.
В такой системе признаков допустимы обе
постановки задачи; каждый признак может
выступать и в роли независимой переменной
х, и в качестве зависимой переменной у.
Поскольку корреляционная связь
является статистической, первым условием
возможности ее изучения является общее
условие всякого статистического исследования:
наличие данных по достаточно большой
совокупности явлений. По отдельным явлениям
можно получить совершенно превратное
представление о связи признаков, ибо
в каждом отдельном явлении значения признаков
кроме закономерной составляющей имеют
случайное отклонение (вариацию).
Какое именно число явлений
достаточно для анализа корреляционной
зависимости и вообще статистической
связи , зависит от цели анализа, требуемой
точности и надежности параметров связи,
от числа факторов, корреляция с которыми
изучается. Обычно считают, что число наблюдений
должно быть не менее чем в 5-6, а лучше –
не менее чем в 10 раз больше числа факторов.
Еще лучше, если число наблюдений в несколько
десятков или в сотни раз больше числа
факторов, тогда закон больших чисел, действуя
в полную силу, обеспечивает эффективное
взаимопогашение случайных отклонений
от закономерного характера связи признаков.
Вторым условием закономерного
проявления корреляционной связи служит
условие, обеспечивающее надежное выражение
закономерности в средней величине. Кроме
уже указанного большего числа единиц
совокупности для этого необходима достаточная
качественная однородность совокупности.
Нарушение этого условия может извратить
параметры корреляции.
Иногда как условие корреляционного
анализа выдвигают необходимость подчинения
распределения совокупности по результативному
и факторным признакам нормальному закону
распределения вероятностей. Это условие
связано с применением метода наименьших
квадратов при расчете параметров корреляции:
только при нормальном распределении
метод наименьших квадратов дает оценку
параметров, отвечающую принципам максимального
правдоподобия.
Однако при значительном отклонении
распределений признаков от нормального
закона нельзя оценивать надежность выборочного
коэффициента корреляции, используя параметры
нормального распределения вероятностей
или распределения Стьюдента.
Корреляционно – регрессионный
анализ учитывает межфакторные связи,
следовательно, дает нам более полное
измерение роли каждого фактора: прямое,
непосредственное его влияние на результативный
признак; косвенное влияние фактора через
его влияние на другие факторы; влияние
всех факторов на результативный признак.
Если связь между факторами несущественна,
индексным анализом можно ограничиться.
В противном случае его полезно дополнить
корреляционно – регрессионным измерением
влияния факторов, даже если они функционально
связаны с результативным признаком.
В соответствии с сущностью
корреляционной связи ее изучение имеет
две цели:
измерение параметров уравнения,
выражающего связь средних значений зависимой
переменной со значениями независимой
переменной (зависимость средних величин
результативного признака от значений
одного или нескольких факторных признаков);
измерение тесноты связи двух
(или большего числа) признаков между собой.
Вторая задача специфична для
статистических связей, а первая разработана
для функциональных связей и является
общей. Основным методом решения задачи
нахождения параметров уравнения связи
является метод наименьших квадратов,
разработанный К.Ф.Гауссом. Он состоит
в минимизации суммы квадратов отклонений
фактически измеренных значений зависимой
переменной у от ее значений, вычисленных
по уравнению связи с факторным признаком
х.
Для
измерения тесноты связи применяется
несколько показателей. При парной связи
теснота связи измеряется прежде всего
корреляционным отношением. Квадрат корреляционного
отношения – это отношение межгрупповой
дисперсии результативного признака,
которая выражает влияние различий группировочного
факторного признака на среднюю величину
результативного признака, к общей дисперсии
результативного признака, выражающей
влияние на него всех причин и условий.
Квадрат корреляционного отношения называется
коэффициентом детерминации.
Уравнение корреляционной связи
измеряет зависимость между вариацией
результативного признака и вариацией
факторного признака. Меры тесноты связи
измеряют долю вариации результативного
признака, которая связана корреляционно
с вариацией факторного признака.
Интерпретировать корреляционные
показатели строго следует лишь в терминах
вариации (различий в пространстве) отклонений
от средней величины. Если же задача исследования
состоит в измерении связи не между вариацией
двух признаков объекта во времени, то
метод корреляционно – регрессионного
анализа требует значительного изменения.
Метод корреляционно – регрессионного
анализа не может объяснить роли факторных
признаков в создании результативного
признака. Это очень серьезное ограничение
метода, о котором не следует забывать.
Как отмечалось в главе 3, группировка
совокупности по одному факторному признаку
может отразить влияние именно данного
фактора на результативный признак при
условии, что все другие факторы не связаны
с изучаемым, а случайные отклонения и
ошибки взаимопогасились в большей совокупности.
Если же изучаемый фактор связан с другими
факторами, влияющими на результативный
признак, будет получена не «чистая» характеристика
влияния только одного фактора, а сложный
комплекс, состоящий как из непосредственного
влияния фактора, так и из его косвенных
влияний, через его связь с другими факторами
и их влияние на результативный признак.
Данное положение полностью относится
и к парной корреляционной связи.
Однако коренное отличие корреляционно
– регрессионного анализа от аналитической
группировки состоит в том, что корреляционно
– регрессионный анализ позволяет разделить
влияние комплекса факторных признаков,
анализировать различные стороны сложной
системы взаимосвязей. Если метод комбинированной
аналитической группировки, как правило,
не дает возможность анализировать более
трех факторов, то корреляционный метод
при объеме совокупности около ста единиц
позволяет вести анализ системы с 8-10 факторами
и разделить их влияние.
Развивающиеся на базе корреляционно
– регрессионного анализа многомерные
методы (метод главных компонент, факторный
анализ) позволяют синтезировать влияние
признаков (первичных факторов), выделяя
из них непосредственно не учитываемые
глубинные факторы (компоненты).
Необходимо сказать и о других
задачах применения корреляционно – регрессионного
метода, имеющих не формально математический,
а содержательный характер.
1. Задача выделения важнейших
факторов, влияющих на результативный
признак (то есть на вариацию
его значений в совокупности).
Эта задача решается в основном
на базе мер тесноты связи
факторов с результативным признаком.
2. Задача оценки хозяйственной
деятельности по эффективности
использования имеющихся факторов
производства. Эта задача решается
путем расчета для каждой единицы
совокупности тех величин результативного
признака, которые были бы получены
при средней по совокупности
эффективности использования факторов
и сравнения их с фактическими
результатами производства.
3. Задача прогнозирования
возможных значений результативного
признака при задаваемых значениях
факторных признаков. Такая задача
решается путем подстановки ожидаемых,
или возможных значений факторных
признаков в уравнение связи
и вычисления ожидаемых значений
результативного признака.
4. Задача подготовки данных,
необходимых в качестве исходных
для решения оптимизационных
задач.
При решении каждой из названных
задач нужно учитывать особенности и ограничения
корреляционно – регрессионного метода.
Построение
корреляционно - регрессионных моделей,
какими бы сложными они ни были, само по
себе не вскрывает полностью всех причинно-следственных
связей. Основой их адекватности является
предварительный качественный анализ,
основанный на учете специфики и особенностей
сущности исследуемых социально – экономических
явлений и процессов[3]
4.2.Построение экономико-математической
модели себестоимости 1 ц.
Корреляционно
регрессионный анализ представляет интерес
не только с точки зрения теории, но и с
точки зрения практики, что подтверждается
построением экономико-математической
модели себестоимости 1ц зерна.
Исходная информация
введения в пакет диалоговой
статистики и с помощью программы
«STATGRAPH» построена модель множественной
регрессии.
Таблица
10 – Экономико-математическая модель
себестоимости 1ц зерна по предприятиям
Аннинского и Семилукского районов
Условные обозначения
(Independent
variable) |
Коэффициент регрессии
(Coefficient) |
Стандартная ошибка
(std.
Error) |
Т-статистика
(t-value) |
Уровень значимости
(sig.
Lebel) |
Constant |
196,139633 |
70,074036 |
2,7990 |
0,0135 |
Урожайность зерновых культур, ц/га (x1) |
-4,795778 |
2,092118 |
-2,2923 |
0,0368 |
Трудоемкость 1 ц зерна, чел./час (x2) |
29,176629 |
48,02736 |
0,6075 |
0,5526 |
Уровень интенсификации (произв. затраты
на 1 га посева), руб. (x3) |
0,012281 |
0,005411 |
2,2698 |
0,0384 |
Фондообеспеченность хозяйства, тыс. руб. (x4) |
0,007185 |
0,018695 |
0,3843 |
0,7061 |
Уровень специализации, % (x5) |
-1,053517 |
0,953814 |
-1,1045 |
0,2868 |
Уд.
вес затрат на зерно в общих затратах на
растениеводство, % (x6) |
2,519723 |
1,444457 |
1,7444 |
0,1015 |
Стоимость внесенных удобрений на 1 га
зерновых, руб. (x7) |
0,056997 |
0,030623 |
1,8612 |
0,0824 |
Уровень концентрации (площадь посева
зерновых), га (x8) |
0,017519 |
0,010455 |
1,6756 |
0,1145 |
Трудообеспеченность (число работников на 100 га пашни), чел.
(x9) |
2,560204 |
3,216188 |
0,7960 |
0,4384 |
R-SQ=0,5789 |
SE=73,529914 |
MAE=47,119681 |
DurbWat=2,118 |
|
Однако, статистическая
оценка характеристик данной модели показывает,
что некоторые факторы (трудоемкость,
фондообеспеченность) количественно мало
определяют результат, а влияние некоторых
факторов – логико-экономическому осмыслению
(фондообеспеченность, уровень специализации).
Компьютерная программа позволяет рассчитывать
ряд вариантов и выбрать наиболее значимую
модель.
Таблица
11 – Улучшенная экономико-математическая
модель себестоимости 1ц молока по предприятиям
Аннинского и Семилукского районов
Условные обозначения
(Independent
variable) |
Коэффициент регрессии
(Coefficient) |
Стандартная ошибка
(std.
Error) |
Т-статистика
(t-value) |
Уровень значимости
(sig.
Lebel) |
Constant |
324,46643 |
49,091137 |
6,6095 |
0,0000 |
Урожайность зерновых культур, ц/га (x1) |
-5,954326 |
2,060898 |
-2,8892 |
0,0088 |
Уровень интенсификации (произв. затраты
на 1 га посева), руб. (x3) |
0,015132 |
0,005146 |
2,9406 |
0,0078 |
Стоимость внесенных удобрений на 1 га
зерновых, руб. (x7) |
0,060543 |
0,024031 |
2,5193 |
0,0199 |
R-SQ
= 0,6447 |
SE=76,455693 |
MAE=55,136780 |
DurbWat=1,819 |
|
Модель в целом улучшилась.
Коэффициент детерминации возрос и стал
равным 0,6447 или 64,47%. Отсюда следует, что
на долю неучтенных факторов происходит
35,53%.
Коэфициент корреляции составил:
Он свидетельствует о том, что
между себестоимостью зерна и перечисленными
выше факторами связи прямая и тесная,
высокая ( по шкале Чедека). Так как коэффициент
корреляции > 0,8, а коэффициент детерминации
0<0,6447<1. Полученная модель количественно
измеряет исследуемую связь. Это можно
представить в виде следующего уравнения
регресси: Yx1x3x7=324,46643-5,954326x1+0,015132x3+0,0060543x7
Таблица 12. Дисперсионный анализ
по факторам модели.
Источник вариации |
Сумма квадратов отклонений |
Число степеней свободы |
Дисперсия на одну степень свободы |
Критерий Фишера (Fрасч./фактич.) |
Уровень значимости |
Source |
Sum of Squares |
DF |
Mean Squares |
F-Ratio |
P-value |
X1 |
1687,957 |
1 |
1687,96 |
0,29 |
0,6023 |
X3 |
146567,660 |
1 |
146567,66 |
25,07 |
0,0001 |
X7 |
37101,647 |
1 |
37101,65 |
6,35 |
0,0199 |
Model |
185357,265 |
3 |
|