Основы научных исследований

Автор работы: Пользователь скрыл имя, 12 Марта 2013 в 15:00, методичка

Описание работы

Дисциплины «Основы научных исследований на транспорте», «Основы научных исследований», «Планирование экспериментов и инженерных наблюдений», «Планирование экспериментов» являются специальными дисциплинами, так как при их изучении, студенты получают знания и навыки, необходимые для практической работы инженеро-техническим и научным работникам, преподавателям, менеджерам и позволяющие им продолжить обучение в магистратуре и аспирантуре.

Содержание работы

ВВЕДЕНИЕ
3
1. Лабораторная работа №1 Доверительная вероятность, доверительный интервал…………………………………………………...
5
2. Лабораторная работа №2 Корреляционный анализ…………………...
8
2.1. Выявление наличия взаимосвязи между признаками…………….
9
2.1.1. Расчёт коэффициентов корреляции детерминации………….
9
2.2. Определение формы связи………………………………………….
10
2.3. Определение силы (тесноты) и направления связи……………….
12
2.4. Проверка статистической значимости коэффициентов корреляции…………………………………………………………………..
14
3. Лабораторная работа №3 Регрессионный анализ……………………...
15
3.1. Определение вида аналитической зависимости (спецификация модели)………………………………………………………………………
17
3.2. Оценка параметров модели…………………………………………
17
3.3. Проверка значимости регрессионной модели……………………..
18
3.4. Значимость коэффициентов регрессии…………………………….
18
4. Лабораторная работа №4 Оценка адекватности теоретических решений……………………………………………………………………...
20
4.1. Определение критерия Фишера…………………………………….
22
Рекомендуемая литература………………………………………………...
24
ПРИЛОЖЕНИЕ……………………………………………………………..
25

Файлы: 1 файл

МУ ОНИ практики.doc

— 812.50 Кб (Скачать файл)

Под корреляционным анализом понимают группу методов, позволяющих выявлять наличие и степень взаимосвязи между несколькими параметрами, изменяющимися случайным образом. Мера такой взаимосвязи оценивается специальными числовыми характеристиками, а также их статистиками, определяющими степень близости этой взаимосвязи к функциональной, которая может иметь место между параметрами, обладающими детерминированным характером изменения.

Статистическая связь и ее отличие от функциональной были рассмотрены в первой теме. Корреляционная связь появляется, когда одному и тому же значению аргумента (независимой переменной) соответствует ряд значений функции (зависимой переменной). Тогда связь обнаруживается в виде тенденции изменения средних значений функции в зависимости от изменений аргумента. Этим корреляционная связь отличается от функциональной, которая возникает в случае, когда заданному значению аргумента соответствует вполне определенное значение функции. По сути корреляционная связь является неполной, так как зависимость между функцией и аргументом в каждом конкретном случае подвержена влиянию со стороны других факторов (зачастую носящих переменный характер). 

Связь как синхронность (согласованность) – корреляционный анализ.

 Связь как зависимость (влияние) – регрессионный анализ (причинно-следственные связи).

Основные задачи корреляционного анализа – это определение и выражение формы аналитической зависимости результативного признака y от факторных признаков xi.

Отличительная черта корреляционного анализа – измерение тесноты связи между y и x.

Основные числовые характеристики - коэффициент корреляции и корреляционное отношение.

Выделяют следующие этапы корреляционного анализа:

  1. Выявление наличия взаимосвязи между признаками;
  2. Определение формы связи;
  3. Определение силы (тесноты) и направления связи.

Порядок выполнения работы

 

    1. Выявление наличия взаимосвязи между признаками

 

Простейшим визуальным способом выявить  наличие взаимосвязи между количественными  переменными является построение диаграммы  рассеяния. Это график, на котором  по горизонтальной оси (X) откладывается одна переменная, по вертикальной (Y) другая. Каждому объекту на диаграмме соответствует точка, координаты которой равняются значениям пары выбранных для анализа переменных.

Пример диаграммы рассеяния представлен на рис. 2.

Рис. 2 Рассеяние случайной величины

 

      1. Расчёт коэффициентов корреляции детерминации

 

Формула для вычисления парного  коэффициента корреляции:

 

                     (6)

 

Свойства коэффициента корреляции:

  • Коэффициент парной корреляции вычисляется для количественных признаков.
  • Коэффициент корреляции симметричен, т.е. не изменяется, если X и Y поменять местами.
  • Коэффициент корреляции является величиной безразмерной.
  • Коэффициент корреляции не изменяется при изменении единиц измерения признаков X и Y.

Сам по себе коэффициент корреляции не имеет содержательной интерпретации. Однако его квадрат (r2), называемый коэффициентом детерминации (обозначается d и обычно выражается в %), имеет простой смысл – это показатель того, насколько изменения зависимого признака объясняются изменениями независимого.

Из определения коэффициента детерминации следует, что он принимает  значения в диапазоне от 0% до 100%.

Если две переменные функционально  линейно зависимы (точки на диаграмме рассеяния лежат на одной прямой), то можно сказать, что изменение одной из них полностью объясняется изменением другой, а это как раз тот случай, когда коэффициент детерминации равен 100%  (при этом коэффициент корреляции может быть равен как 1, так и –1).

Чем выше по модулю (по абсолютной величине) значение коэффициента корреляции, тем  сильнее связь между признаками.

Принято считать, что коэффициенты корреляции, которые по модулю больше 0,7, говорят о сильной связи (при  этом коэффициенты детерминации > 50%, т.е. один признак определяет другой более, чем наполовину).

Коэффициенты корреляции, которые  по модулю меньше 0,7, но больше 0,5, говорят  о связи средней силы (при этом коэффициенты детерминации меньше 50%, но больше 25%).

Наконец, коэффициенты корреляции, которые по модулю меньше 0,5, говорят о слабой связи (при этом коэффициенты детерминации меньше 25%).

 

    1. Определение формы связи

 

Если наше облако точек напоминает очертания некоторой линии, то можно  предполагать, что мы видим на диаграмме  рассеяния именно такую по форме зависимость, однако искаженную воздействием как случайных, так и неучтенных факторов, вызывающим отклонение точек от теоретической формы.

Поскольку наиболее простой формой зависимости в математике является прямая, то в корреляционном и регрессионном анализе наиболее популярны линейные модели.

Однако иногда расположение точек  на диаграмме рассеяния показывает нелинейную зависимость либо вообще отсутствие связи между признаками.

На рис. 3 представлены примеры нелинейной связи (а) и отсутствия связи (б) между признаками X и Y

  

а) Нелинейная связь    б) Отсутствие связи

Рис. 3 Примеры форм связи

Попробуем провести прямую линию через  облако точек на диаграмме рассеяния, изображённой на рис. 2. Таких линий можно нарисовать множество, причем на глаз невозможно определить, какая из них лучше подходит для описания диаграммы рассеяния.

Однако существует метод, который  позволяет совершенно точно вычислить  положение прямой линии, наилучшим  образом проходящей через облако точек.

Это – метод наименьших квадратов. Вычисляемая с его помощью прямая линия называется линией регрессии. Она характеризуется тем, что сумма квадратов расстояний от точек на диаграмме до этой линии минимальна (по сравнению со всеми возможными линиями).

Таким образом, линия регрессии  дает наилучшее  приближенное описание линейной зависимости между двумя переменными (рис. 4).

Рис. 4 Линия регрессии, полученная с использованием метода наименьших квадратов

 

    1. Определение силы (тесноты) и направления связи

 

Если бы существовала функциональная (математически точная) положительная зависимость между числом рабочих и доходом, т.е. если бы на каждом предприятии каждый рабочий за год производил в точности одинаковое количество продукции, все точки-объекты расположились бы на «растущей» прямой.

В этом случае чем больше значения одного признака, тем больше значения другого ) и чем меньше значения одного признака, тем меньше значения другого.

Пример положительной функциональной связи между признаками X и Yизображён на рис. 5.

Однако на практике мы встречаемся  не с функциональными, а со статистическим связями (действительно, эффектив-ность труда, т.е. количество продукции, произведенной одним рабочим, различается на разных предприятиях).

Поэтому на графике точки-

  Рис. 5 Положительная        объекты не лежат на одной

     функциональная  связь     прямой, и какую бы прямую мы

ни провели, все точки на нее  не попадут.

В случае положительной статистической связи мы видим "облако" точек, о котором можно сказать, что оно вытянуто по диагонали от левого нижнего угла к правому верхнему, т.е. с ростом одного признака другой в среднем растет.

Значит, и в этом случае чем больше значения одного признака, тем больше значения другого и чем меньше значения одного признака, тем меньше значения другого. Однако это верно не для каждого объекта, а для статистической совокупности.

Пример положительной статистической связи между признаками X и Y представлен на рис. 6.

Рис. 6 Положительная  

статистическая связь




Если бы между признаками существовала функциональная отрицательная (а не положительная) зависимость, точки на диаграмме также расположились бы на одной прямой, однако эта прямая      проходила бы в противоположном

направлении.

В этом случае чем больше значения  одного признака, тем меньше

значения другого и чем меньше значения одного признака, тем больше значения другого.

Пример отрицательной функциональной связи между -  Рис. 7 Отрицательная                     признаками X и Y изображен

                   функциональная связь                     на рис. 7.                  

Аналогично для отрицательной статистической связи.

Какова бы ни была конфигурация облака точек на диаграмме рассеяния – лежат ли  они в точности на одной прямой, или разбросаны хаотически – любая статистическая программа всегда сможет построить уравнение регрессии. Однако в первом случае (точки лежат на одной прямой) оно будет весьма достоверным, а во втором (точки разбросаны хаотически) – нет.

Более того, может оказаться, что  через два облака, различающихся  степенью близости к линейной конфигурации, будут проведены одинаковые линии регрессии.

Тем не менее зависимость  между двумя переменными может  иметь различный характер даже при  одинаковых линиях регрессии.

Оказывается форма связи (линия регрессии) сама по себе не дает ответа на вопрос о тесноте (силе) связи  пары переменных.

На этот вопрос отвечает коэффициент парной корреляции. Он показывает, насколько тесно две переменные связаны между собой.

Визуально о силе связи  можно судить по тому, насколько  тесно расположены точки-объекты  около линии регрессии. Чем ближе  точки к линии регрессии, тем сильнее связь.

Коэффициент парной корреляции r принимает значения в диапазоне от –1 до +1.

Положительные значения коэффициента корреляции r (рис. 8) свидетельствуют о положительной связи (а) между признаками, отрицательные – об отрицательной связи (б).

       

а)         б)

Рис. 8 Направление связи

Если r = 1, то между двумя переменными существует функциональная положительная линейная связь (рис. 9), т.е. на диаграмме рассеяния соответствующие точки лежат на одной прямой с положительным наклоном:

Если r = –1, то между двумя переменными существует функциональная  Рис. 9 Коэффициент отрицательная линейная зависимость,        корреляции равен ……………………………………………………………….единице

т.е. на диаграмме рассеяния соответствующие  точки лежат на одной прямой с  отрицательным наклоном.

Если r = 0 (рис. 10), то рассматриваемые переменные линейно независимы, т.е. на диаграмме рассеяния облако точек "вытянуто по горизонтали":

 

 

 

Рис. 10 Коэффициент

 корреляции равен нолю

 

    1. Проверка статистической значимости коэффициентов корреляции

 

Если коэффициент корреляции вычислен на основе выборочных данных, то не исключено, что его ненулевое значение является не отражением действительной связи между признаками, а просто получено в результате специфики данной выборки (тогда как в генеральной совокупности коэффициент корреляции равен нулю, т.е. линейной связи между признаками нет).

Таким образом, надо понять, как далеко значение r от нуля.

Если значение коэффициента корреляции вычислено по выборочным данным, то для оценки его значения в генеральной совокупности, как  обычно, строится доверительный интервал.

Для построения доверительного интервала вычисляется ошибка коэффициента корреляции σr по формуле:

 

     (7)

 

Затем вычисляется фактическое  значения  t-статистики (критерий Стьюдента, tфакт) по соотношению

               (8)

После этого, фактическое  значение  t-статистики сравнивается с  критическим  (табличным tтабл). tтабл  – максимально возможное значение  критерия  под влиянием  случайных факторов при данной степени свободы k = n–2 и уровне значимости (доверительной вероятности) α.

Если tтабл < tфакт, то значение r  не случайно отличается от нуля и сформировалось под влиянием систематически действующего фактора. Если  tтабл > tфакт,  то  признается  случайная природа формирования значения r. 

Информация о работе Основы научных исследований