Переходим к изучению материала и проверке знаний

Автор работы: Пользователь скрыл имя, 10 Мая 2013 в 21:03, реферат

Описание работы

Все эти типы задач (и целый ряд других) весьма успешно решаются с помощью универсального пакета PASW-18, который несомненно является одним из самых лучших пакетов для аналитических предсказаний.
На предыдущей лекции были рассмотрены некоторые из упомянутых выше направлений углубленного анализа данных: построение деревьев решений, дискриминантный анализ, построение ассоциаций и последовательномтей.

Файлы: 1 файл

8 лекция.docx

— 307.65 Кб (Скачать файл)

К факторному анализу обычно прибегают  тогда, когда пытаются определить скрытые (латентные) переменные, которые в  действительности определяют  изучаемое явление. Очень часто такие факторы или неизвестны заранее, или не поддаются непосредственному измерению.

Факторный анализ можно использовать и при  построении регрессионного уравнения. Если исходные переменные сильно взаимосвязаны, то в качестве объясняющих переменных можно использовать факторы, полученные в результате факторного анализа. Факторы  по построению являются ортогональными, так что проблема мультиколлинеарности при этом будет полностью решена.

 
В последние годы факторный анализ приобрел значительную популярность в  психологических и социальных исследованиях. Во многом этому способствовала  разработка Раймондом Кеттелем  знаменитого 16 факторного личностного опросника. Именно при помощи факторного анализа ему удалось свести около 4500 наименований личностных особенностей к 187 вопросам, которые в свою очередь позволяют измерить 16  различных свойств личности (познакомиться с вопросами и пройти тестирование можно, например на сайте  http://www.bitnet.ru/mirrors/students.ru/kettel-test.html).  
Задачей факторного анализа является определение новых переменных      (факторов), через которые исходные переменные выражаются с помощью соотношений линейной связи:

Здесь  – число исходных переменных,  – число факторов. Коэффициенты    называются факторными нагрузками.

Факторную нагрузку   следует понимать как коэффициент корреляции между переменной   и фактором  .

В общем случае число факторов должно быть меньше числа исходных переменных   . В уменьшении числа факторов и состоит одна из задач факторного анализа.

Первоначально при проведении факторного анализа  в PASW число факторов всегда равно числу исходных переменных, и пользователь может  по своему усмотрению задать алгоритм отбора факторов.

Обычно  отбираются те факторы, каждый из которых  способен объяснить наибольшую долю дисперсии. Суммарно оставленные факторы  должны  объяснять 70 – 80 %  дисперсии переменных. 
В этом случае число  используемых факторов будет меньше числа объясняющих переменных, и мы получаем возможность найти так называемые скрытые факторы, через которые выражаются все объясняющие переменные  . 

После того, как факторы найдены, их необходимо  интерпретировать. Далеко не всегда эта интерпретация оказывается очевидной. При интерпретации факторов приходится анализировать факторные нагрузки и на основании этих данных пытаться интерпретировать смысл  факторов.

Если  факторы интерпретировать не удается, то задача поиска срытых переменных не может считаться реализованной. Поэтому интерпретация факторов является важной заключительной частью факторного анализа. 

Дальнейшие  детали  выполнения факторного анализа мы поясним на простом примере. 

Интерпретация результатоф факторного анализа

В файле Example_4_13.sav (загружается по ссылке "Данные для факторного анализа" ресурсов лекции)  приведены экономические показатели 186 крупнейших компаний РФ за 1997 г. В базу данных включены предприятия, вошедшие в рейтинг журнала «Эксперт» за 1997 год.

Экономические показатели предприятий характеризуют  восемь параметров. Используя факторный  анализ, определите три главных фактора, с помощью которых можно объяснить  около 90 % вариации факторных признаков.

Используя матрицу повернутых факторных нагрузок, интерпретируйте эти факторы.

Процедура настройки параметров факторного анализа  обсуждалась на лекции и подробно описана в методическом руководстве  для проведения практических занятий.

По  этой причине мы здесь не будем  останавливаться еще раз на обсуждении этого вопроса, а сразу перейдем к анализу результатов.

Напомним  только, что  в задаче требуется выделить три главных фактора, поэтому на закладке Извлечение нужно сразу указать нужное число извлекаемых факторов, а на закладке  Вращение нужно выбрать  метод вращения Варимакс и заказать вывод повернутых компонент матрицы факторных нагрузок, что значительно облегчает проблему интерпретации факторов.

Наиболее  важными при интерпретации факторов являются две таблицы: таблица полной объясненной дисперсии, которую  мы приводим не полностью) и  матрица повернутых компонент, приведенные ниже.

Не  вдаваясь в теорию метода главных  компонент (подробнее с которой  можно познакомиться в книге  Биккин Х. М., Полтавец А. В., Шашкин С. Ю. Компьютерный анализ данных для менеджеров. Екатеринбург, УрАГС, 2007),  отметим, что фактор является собственным вектором ковариационной матрицы (для стандартизованных переменных ковариационная матрица совпадает с корреляционной матрицей), соответствующим данному собственному значению.

Число собственных значений соответствует  размерности ковариационной матрице  ( и равен числу объясняющих переменных).  Сумма собственных значений равна ковариационной матрицы равна  ее размерности  (в нашем случае — восьми).

Задачей факторного анализа является отбор  тех  собственных значений и соответствующих им собственных векторов (факторов), которые объясняют большую долю  дисперсии многомерной случайной величины.

Доля  объясняемой фактором дисперсии  многомерной случайной величины пропорциональна собственному значению фактора и определяется выражением

Из  первой таблицы видно, что три  первых фактора объясняют около 80% дисперсии многомерной случайной  величины, что вполне достаточно для  большинства практических задач.

Теперь  встает задача интерпретации факторов. Для этих целей лучше использовать матрицу факторных нагрузок для  повернутых компонент (можно использовать и исходную матрицу неповернутых компонент, но интерпретировать ее сложнее, а иногда и невозможно). Вращение матрицы факторных нагрузок производится исключительно для того чтобы облегцить интерпретацию факторов.

При интерпретации матрицы факторных  нагрузок следует исодить из того, что они  определяют коэффициент корреляции данной  переменной и фактора.

Проанализируем первый фактор.

Большие коэффициенты корреляций у этого  фактора с переменными:  Объем 1997 г. млрд руб. (0,981); Объем 1996 г. млрд.руб. (0,972); Балансовая приб. 1997 г. млрд. руб. (0,918); Количество раб. тыс. чел. (0,927). Отсюда моно сделать вывод, что этот фактор аккумулирует интегральные (валовые) показатели деятельности предприятий.

Для второго фактора большие факторные нагрузки для переменных Отношение прибыли к объему (0,657); Удельный объем пр-ва, млрд/чел (0,874). Иначе говоря это фактор, который учитывает степень эффективности  производства (которая характеризуется удельными величинами).

Для третьего фактора большие факторные нагрузки получаются для переменной  Темп роста (0,757). Таким образом, третий фактор определяет  интенсивность развития предприятий.

Следует признать, что программа, которая, естественно, ничего не понимает в экономике. правильно определила те характеристики, которые надлежит отслеживать при анализе деятельности предприятий.

Предварительный анализ данных

 
Хорошо известно, что целый ряд  статистических процедур можно применять  лишь в том случае, если исходный набор данных удовлетворяет условиям применимости того или иного статистического  метода.

Например, применять  t- распределения  Стьюдента для проверки гипотезы о равенстве  двух выборочных средних можно лишь в том случае, если изучаемая величина распределена нормально или почти нормально. Если это условие не выполняется, то использовать  t- статистику  нельзя и следует  применять один из непараметрических тестов.

Критерии, используемые для проверки статистических гипотез, называются непараметрическими, если они не основываются  на предположении об известном характере распределения случайной величины.

Для целей предварительного знакомства со свойствами изучаемого статистического  распределения  используется вычисление  показателей дескриптивной (описательной) статистики, таких как среднее значение, медиана среднеквадратическое отклонение, асимметрия, эксцесс, строятся частотные распределения, диаграммы ветвей и листьев.

Этим  же целям служит построение гистограмм и коробчатых диаграмм распределения.

Предварительное изучение свойств анализируемого распределения  является очень важным. В частности, таким образом можно заметить отклонения распределения случайной величины от нормального закона.

Изучая  частотные характеристики распределения, можно обнаружить что выборка является нерепрезентативной. Например, если анализируется образовательный уровень населения России, и частотный анализ показал, что в исследуемой выборке доля мужчин составляет  52 %, то сразу можно сказать, что эта выборка является нерепрезентативной, поскольку доля мужского населения в Российской Федерации составляет  45,5 %.

Дальнейший  анализ  такой выборки смысла не имеет, и требуется провести коррекцию репрезентативности выборки. Такая коррекция реализуется с помощью взвешивания данных в окне редактора данных. 

В связи с предварительным анализом данных рассмотрим еще одну проблему – обнаружение недостоверных  данных и выбросов в исходной анализируемой  информации.

В простейшем случае выбросы (нетипичные значения изучаемой случайной величины) могут быть обнаружены при определении  показателей описательной статистики и построении частотного распределения  случайной величины.

Если  выбросы найдены и установлено, что эти значения ошибочны, то самый  простой способ борьбы с ошибочными данными – отбросить их, если это возможно.

На  практике могут встретиться более  сложные случаи, когда сразу нельзя утверждать, что отклоняющиеся от основного массива данные являются ошибками или ситуации, когда имеется  несколько  схожих по величине значений, значительно отличающихся от основного массива данных.

Как в этих случаях выявить наличие  ошибочных данных и  правильно провести оценку статистических показателей? Решению таких проблем посвящен специальный раздел статистики – робастное (устойчивое) оценивание.

Робастное оценивание – это методы статистического  анализа, которые позволяют получить достаточно надежные оценки показателей  статистической совокупности в условиях отсутствия данных о законе ее статистического  распределения и наличия существенных отклонений в значении данных. У  истоков развития методов робастного оценивания стояли американский статистик  Д. Тьюки и швейцарский математик П. Хубер.

Пакет PASW в своем составе имеет процедуры  робастного оценивания (здесь они  называются здесь М-оценками).  М-оценки Губера, Тьюки, Хампеля и Эндрюса можно получить на этапе предварительного исследования данных, если в меню выбрать Анализ/Описательные статистики/Разведочный анализ  и в открывшемся окне нажать клавишу статистики.

 
Основная  идея получения  М-оценок состоит в том, что  перед вычислением среднего значения разным  случаям присваиваются веса. Чем дальше  значение находится от среднего значения, – тем меньше вес. Обычное среднее можно рассматривать как  М-оценивание, когда все веса единичные.

Используются  М-оценки  достаточно просто. Если  М-оценки  и обычные средние различаются, то это указывает на засоренность данных. В этом случае следует  устранить  недостоверные данные из исходных данных.

Критерий Колмогорова – Смирнова для проверки 
 гипотезы о виде закона распределения

 
Для проверки гипотез о виде распределения  очень часто используют критерий Колмогорова – Смирнова. Этот критерий очень прост для использования  и в  PASW позволяет проверить гипотезу о принадлежности анализируемого распределения одному из распространенных законов распределения: нормальному, Пуассона, однородному или экспоненциальному.

 
В качестве меры расхождения между  эмпирическим и теоретическим распределениями  принимается максимальное значение абсолютной величины разности между эмпирической  функцией распределения    и соответствующей теоретической функцией распределения  .     

 

В качестве эмпирической функции распределения  используется просто функция накопленных частот, а предполагаемые параметры теоретической функции распределения рассчитываются по имеющимся выборочным данным.

Колмогоровым  доказана теорема о том, что какому бы распределению   не подчинялась случайная непрерывная величина  , при неограниченном числе наблюдений ( ) вероятность P  того, что величина    будет больше  некоторого числа    определяется легко вычисляемой величиной.   

 

 
Чем больше величина  , тем меньше оказывается величина (1).

Величина     называется статистикой критерия Колмогорова – Смирнова.

Для проверки, например, нормальности распределения  случайной величины в выборке, тест  Колмогорова – Смирнова используется следующим образом.

 
1. Выдвигается нулевая гипотеза о том, что распределение является нормальным.

 
2. На основании имеющихся данных рассчитывается эмпирическое значение статистики Колмогорова – Смирнова т. е. величина  .

 
3. Критическое значение статистики Колмогорова – Смирнова  ,  при заданном уровне значимости ,  определяется, исходя из выражения (1)  т. е.     

 

 

Критическое значение статистики  Колмогорова – Смирнова можно взять и из  таблиц критических точек для этой статистики.

 
4. Если эмпирическое значение   , то нулевую гипотезу придется отклонить, и признать, что распределение не является нормальным. Если  , то распределение является нормальны

Пример

Рассмотрим  простой пример использования критерия Колмогорова-Смирнова.

Файл Example_2_10.sav (файл можно загрузить по ссылке "Данные для сравнения  средних")  содержит данные о денежных доходах и потребительских расходах в расчете на душу населения в августе 2005  г.  Используя эти данные, требуется определить:

Информация о работе Переходим к изучению материала и проверке знаний