Автор работы: Пользователь скрыл имя, 11 Января 2015 в 17:25, курсовая работа
Основные понятия, особенности и задачи корреляционного и регрессионного анализа.
Классическим методом оценивания коэффициентов уравнения регрессии является метод наименьших квадратов. Первое изложение элементов метода наименьших квадратов было дано в 1806 г. А.М. Лежандром в связи с вопросами вычисления космических орбит.
1.Общие понятия стр.3
1.1 Понятие корреляционной и регрессионной связи стр.3 1.2 Виды регрессий и корреляций стр.5 1.3 Задачи корреляционного и регрессионного анализа стр.7
2.Корреляция стр.8
2.1 Свойства коэффициента корреляции двух случайных величин стр.8
2.2 Корреляционная таблица стр.10
2.3 Способы вычисления выборочного коэффициента корреляции стр.11
3.Регрессионный анализ стр.16
3.1 Основные понятия. Модель регрессии стр.16
3.2 Задачи регрессионного анализа стр.17
3.3 Алгоритм корреляционно-регрессионного анализа стр.19
4. Особенности практического применения регрессионных моделей стр.20
Список литературы стр.23
Содержание
1.Общие понятия
1.1 Понятие корреляционной
и регрессионной связи
стр.3
2.Корреляция
2.1 Свойства коэффициента корреляции двух случайных величин стр.8
2.2 Корреляционная таблица
2.3Способы вычисления
выборочного коэффициента
3.Регрессионный анализ
3.1 Основные понятия. Модель
регрессии
3.2 Задачи регрессионного
анализа
3.3 Алгоритм корреляционно-
4. Особенности практического
применения регрессионных
Список литературы
Общие понятия
1.1Понятие корреляционной и регрессионной связи
Две (или более) случайных величины
1. Могут быть связаны функциональ
2. Могут быть связаны статистичес
3. Могут быть независимы.
При изучении конкретных зависимостей между случайными величинами вводят понятия:
· факторные признаки или факторы - независимые или объясняющие переменные, причины. Могут быть случайными и неслучайными. Часто обозначаются X;
· результативные признаки или показатели - объясняемые или зависимые переменные. Являются случайными. Часто обозначаются Y.
Иногда X и Y можно менять местами (т.е. не только изменение X вызывает изменение Y, но и наоборот, изменение Y вызывает изменение X) .
Функциональная и корреляционная зависимость отличаются тем, что при функциональной зависимости, зная Х, можно вычислить величину Y. При корреляционной зависимости устанавливается лишь тенденция изменения Y при изменении X.
Корреляционный и регрессионный
анализы имеют общие методы обработки
данных, но отличаются своими целями.
Если не известно, какой их признаков
зависимый, а какой - независимый, или же
это безразлично, то X и Y равноправны,
т.е. каждый из признаков может рассматриваться
как независимый или как зависимый. В этом
случае говорят, что X и Y коррелированны (
Регрессия - это односторонняя стохастическая зависимость, когда одна из переменных служит причиной для изменения другой.
Например, при изучении потребления электроэнергии (Y) в зависимости от объема производства (X) речь идет об односторонней связи, следовательно, о регрессии.
Существуют особенности, связанные с постановкой задачи:
· если изучают стохастическую зависимость Y от X, то устанавливают регрессию Y на X, т.е. Y=f(X);
· если изучают стохастическую зависимость X от Y - то устанавливают регрессию X на Y, т.е. Х=g(Y).
Например, изучается влияние стоимости товара на спрос и влияние спроса на стоимость товара. Здесь и стоимость, и спрос могут быть зависимой и независимой переменными в зависимости от постановки задачи.
Могут быть ситуации, когда обратная регрессия не имеет физического смысла, например, урожайность зависит от количества осадков, обратная зависимость бессмысленна.
1.2 Виды регрессий и корреляций
При изучении взаимосвязи факторных и результативных признаков могут быть следующие случаи:
а) X и Y — случайные величины;
б) Х- неслучайная величина, Y - случайная величина.
Виды корреляции классифицируются по следующим признакам:
а) по характеру корреляции:
· положительная (или равнонаправленная, прямая корреляция);
· отрицательная (или обратная корреляция);
б) по числу переменных:
· простая или парная корреляция (две переменных X и Y);
· множественная корреляция (рассматривается связь более двух переменных);
· частная корреляция (рассматривается связь между двумя переменными при фиксированном влиянии других переменных);
в) по форме связи:
· линейная корреляция;
· нелинейная корреляция;
г) по типу связи признаков:
· непосредственная корреляция;
· косвенная корреляция;
· ложная корреляция.
Виды регрессии классифицируются по следующим признакам:
а) по числу переменных, учитываемых в регрессии:
· простая регрессия (парная – рассматриваются две переменных);
· множественная, или частная регрессия (рассматривается более двух переменных);
б) по форме зависимости между факторными и результирующими признаками:
· линейная регрессия (признаки связаны линейной зависимостью);
· нелинейная регрессия (признаки связаны нелинейной зависимостью);
в) по характеру регрессии (имеет смысл только для простой линейной регрессии):
· положительная регрессия;
· отрицательная регрессия;
г) по типу связи факторных и результирующих признаков:
· непосредственная регрессия - причина прямо воздействует на следствие;
· косвенная регрессия, Y и X не состоят в прямой зависимости, а определяются общей для них причиной через третью переменную;
· нонсенс-регрессия (абсурдная).
1.3 Задачи корреляционного и регрессионного анализа
1. Задачи корреляционного анализа:
а) определяет степень связи двух и более признаков;
б) определяет факторы оказывающее наибольшее влияние на результирующий признакY.
2. Задачи регрессионного анализа:
а) устанавливает форму зависимости (для случая парной регрессии – убывающая или возрастающая);
б) определяет вид функции регрессии;
в) оценивает неизвестные значения зависимой переменной Y (можно воспроизвести значение Y при заданных значениях X внутри рассматриваемого интервала (интерполяция) и вне интервала (экстраполяция)).
Ход рассуждений, постановка задачи, получаемые результаты в корреляционном и регрессионном анализе различны, но очень часто эти два вида анализа проводятся параллельно на одном и том же массиве исходных данных.
Корреляция
Корреляционный анализ используется для численной оценки силы связи между случайными величинами (признаками), которые характеризует некоторый реальный процесс.
В общем виде задача выявления и оценки силы стохастической связи не решена до сих пор. Корреляционная связь это частный случай стохастической зависимости, которая существует между значениями одного из признаков (принятого за независимый) и групповыми средними значениями другого (зависимого) признака.
Чаще всего корреляционная связь характеризуется выборочным коэффициентом корреляции r, который характеризует степень линейной функциональной зависимости между случайными величинами Х и Y
2.1 Свойства коэффициента корреляции двух случайных величин
1.-1≤ r ≤1;
2. если r=±1 то между случайными величинами X и Y существует функциональная линейная зависимость;
3. если r=0 то случайные величины X и Y некоррелированы
4. коэффициенты корреляции X на Y
5. коэффициент корреляции
характеризует степень
После нахождения коэффициента корреляции сила связи между признаками оценивается по шкале Шедока:
1. если │r│<0,2 – связи нет;
2. если 0,2 ≤|r|≤ 0,5 - связь слабая;
3. если0,5 ≤|r|≤ 0,75 - связь средняя;
4. если 0,75 ≤|r|≤ 0,95 - связь тесная;
5. если 0,95 ≤|r|≤ 1 - связь очень тесная.
Если пары значений случайных величин (X,Y) нанести на координатную плоскость, то при 0<r<1, получим корреляцию, которую называют положительной:
Если -1<r<0, то имеем отрицательную корреляцию
2.2 Корреляционная таблица
Обычно при проведении анализа имеются экспериментально полученные выборочные данные, которые удобно представить в виде корреляционной таблицы, имеющий, например, следующий вид:
Y |
X | ||||
10 |
20 |
30 |
40 |
ny | |
0,4 0,6 0,8 |
5 - 3 |
- 2 19 |
7 6 - |
14 4 - |
26 12 22 |
nx |
8 |
21 |
13 |
18 |
n=60 |
В первой строке таблицы указаны наблюдаемые значения признака X (для примера указаны некоторые конкретные значения: 10, 20, 30, 40). В первом столбце приводятся наблюдаемые значения признака Y (0,4; 0,6; 0,8). На пересечении строк и столбцов указываются частоты nxy наблюдаемых пар значений признаков. Например, частота 5 указывает, что пара значений (x=10, y=0,4) наблюдалась 5 раз. Прочерк означает, что данная пара значений не наблюдалась.
В последнем столбце записаны суммы частот по строкам. Например, число 26 в последнем столбце показывает, что значение признака Y равное 0,4 в сочетании с различными значениями признака X наблюдалось 26 раз.
В последней строке записаны суммы по столбцам. Например, число 8 в последней строке показывает, что значение признака X равное 10 в сочетании с различными значениями признака Y наблюдалось 8 раз.
В правом нижнем углу таблицы указана сумма всех частот (общее число всех наблюденийn). Очевидно, что выполняется условий:
Действительно, 26+12+22=8+21+
2.3 Способы вычисления выборочного коэффициента корреляции
Существует много методов оценки величины выборочного коэффициент корреляции.
1. В случае парной зависимости (рассматривается зависимость между двумя признаками) вычисляется коэффициент корреляции Пирсона:
где x, y –
наблюдаемые значения признаков X и Y соответственно
- среднее наблюдаемых значений признака X, , j – номер столбца корреляционной таблицы,
- среднее наблюдаемых значений признака Y, i – номер строки корреляционной таблицы,
- среднее квадрата наблюдаемых значений признака X,
- среднее квадрата наблюдаемых значений признака Y,
- среднее пар наблюдаемых
Пример
Найти выборочный коэффициент корреляции, воспользовавшись выражением , если корреляционная таблица имеет вид:
Y |
X |
||||||
10 |
20 |
30 |
40 |
50 |
60 |
ny | |
15 |
5 |
7 |
- |
- |
- |
- |
12 |
25 |
- |
20 |
23 |
- |
- |
- |
43 |
35 |
- |
- |
30 |
47 |
2 |
- |
79 |
45 |
- |
- |
10 |
11 |
20 |
6 |
47 |
55 |
- |
- |
- |
9 |
7 |
3 |
19 |
nx |
5 |
27 |
63 |
67 |
29 |
9 |
n=200 |
Воспользуемся для вычисления формулой:
а) определим - среднее наблюдаемых значений признака X:
б) определим - среднее наблюдаемых значений признака Y:
Информация о работе Понятие корреляционной и регрессионной связи