Об особенностях применения многомерного статистического анализа в исторических исследованиях

Автор работы: Пользователь скрыл имя, 16 Сентября 2013 в 11:25, реферат

Описание работы

Как известно, в исторических исследованиях довольно часто возникают задачи, которые невозможно решить традиционными методами, но совершенно реально решать при помощи современных компьютерных технологий. В первую очередь, это касается проблемы повышения информативной отдачи статистических источников, выявления из них «скрытой», неявной информации. Успешно работать над данной проблемой можно с использованием разных статистических методов, но, безусловно, самым эффективным здесь является многомерный статистический анализ. С его помощью можно классифицировать объекты, не вычленяя их из естественно образованных ими связей, что неизбежно делают историки, проводя типологизацию по одному – максимум пяти признакам.

Файлы: 1 файл

konovalov.doc

— 53.50 Кб (Скачать файл)

Об особенностях применения многомерного статистического анализа в исторических исследованиях.

Коновалов А.В.

Самарский государственный университет

 

Как известно, в исторических исследованиях  довольно часто возникают задачи, которые невозможно решить традиционными методами, но совершенно реально решать при помощи современных компьютерных технологий. В первую очередь, это касается проблемы повышения информативной отдачи статистических источников, выявления из них «скрытой», неявной информации. Успешно работать над данной проблемой можно с использованием разных статистических методов, но, безусловно, самым эффективным здесь является многомерный статистический анализ1. С его помощью можно классифицировать объекты, не вычленяя их из естественно образованных ими связей, что неизбежно делают историки, проводя типологизацию по одному – максимум пяти признакам. Только многомерный статистический анализ позволяет проводить первичную обработку эмпирических данных в рамках системного исследования.

Именно системный подход диктует нам некоторые правила, которым должно следовать, применяя методы многомерного статистического анализа. Во-первых, они должны использоваться в комплексе. Во-вторых, необходимо четко определять границы возможности интерпретации полученных результатов. В-третьих, (и это пересекается с предыдущим) применять эти методы нужно очень осторожно, проверять их использованием всего арсенала доступных нам средств.

Исходная информация в массовых источниках часто может быть представлена в виде набора объектов, каждый из которых характеризуется рядом признаков (показателей). В качестве объектов могут выступать хозяйства, поселения, административно-территориальные единицы и т.д., а в качестве признаков – различные показатели социально-экономической или демографической структуры изучаемых объектов.

Как показывает опыт анализа массовых источников, число объектов может  достигать многих десятков и сотен; число признаков также может  исчисляться десятками. Очевидно, непосредственный (визуальный) анализ матрицы данных при большом количестве объектов и признаков практически малоэффективен – можно лишь выявить отдельные особенности изучаемой структуры, извлечь иллюстративные частные примеры. В этих условиях возникают задачи укрупнения, концентрации исходных данных, т.е. построения обобщенных характеристик множества признаков и множества объектов. Решение этих задач может осуществляться с помощью современных методов многомерного статистического анализа. При этом методы, ориентированные на анализ структуры множества признаков и выявление обобщенных факторов, известны как методы факторного анализа, а методы анализа структуры множества объектов образуют совокупность методов автоматической классификации.

Будем считать, что все  признаки измерены в количественной шкале. Тогда  каждый объект может быть представлен точкой в многомерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.

О сходстве объектов можно судить по расстоянию между соответствующими точками. Содержательный смысл такого понимания сходства означает, что объекты тем более близки, похожи в рассматриваемом аспекте, чем меньше различий между значениями одноименных показателей.

Для определения близости пары точек в многомерном пространстве обычно используют евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов:

Вычислив расстояние между парой  объектов, получим квадратную матрицу D, имеющую размеры n´n  (по числу объектов); эта матрица, очевидно, симметрична.

Матрица расстояний служит основой  для реализации методов кластерного  анализа, в том числе и агломеративно-иерархического метода, который часто используется для многомерной классификации объектов в социально-экономических исследованиях. Основная идея этого метода заключается в последовательном объединении группируемых объектов – сначала самых близких, затем все более удаленных друг от друга. Процедура построения классификации состоит из последовательности шагов, на каждом из которых производится объединение двух ближайших групп объектов (кластеров).

Обычно близость двух кластеров  определяется как средний квадрат  расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой  - к другому.

Таким образом, метод кластерного  анализа включает n-1 аналогичных шагов. При этом после выполнения  k-го шага (k £ n-1) число кластеров равно n-k (некоторые из них могут являться отдельными объектами), а матрица D имеет размеры (n-k)´(n-k) В конце этой процедуры, на (n-1)-м шаге, получится кластер, объединяющий все n объектов.

Результаты классификации, построенной  изложенным методом, удобно изобразить в виде дерева иерархической структуры (дендограммы), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.

Важнейшей составной частью многих исторических исследований оказывается  задача выявления и анализа структуры  взаимосвязей показателей, выбранных для описания того или иного явления или процесса. При наличии количественной информации, записанной в виде матрицы исходных данных, для решения указанной задачи может быть привлечен корреляционный анализ.

Естественно, перед исследователем встает вопрос: каковы причины, обусловившие такую структуру взаимосвязей показателей в данном явлении?

В решении поставленного вопроса  существенную помощь может оказать  метод многомерного статистического  анализа – факторный анализ. Известно, что взаимосвязь двух или более показателей объясняется либо тем, что они взаимно обуславливают друг друга, либо тем, что на каждый из них воздействует некий скрытый, не входящий в данную группу признак. В факторном анализе исходят из второй ситуации. Основное предположение этого метода состоит в следующем: любое явление или процесс могут быть описаны небольшим числом некоторых скрытых, обобщенных характеристик, которые не поддаются непосредственному наблюдению, но воздействуют на «внешние», наблюдаемые показатели, определяют их изменения и обуславливают тем самым взаимосвязи между ними. Эти скрытые характеристики явления в факторном анализе называются общими факторами.

Таким образом, сложную структуру  взаимосвязей показателей в каком-либо явлении факторный анализ объясняет наличием у этого явления небольшого числа скрытых, обобщенных характеристик – общих факторов. Каждый общий фактор в той или иной мере воздействует на все исходные показатели; те из них, чьи изменения в наибольшей степени определяются этим фактором, оказываются тесно связанными между собой.

Во многих исследованиях наблюдается  тенденция к объединению методов  факторного анализа и автоматической классификации при решении задач  типологии. При этом можно указать  две основные схемы совместного  применения указанных методов для построения типологии.

В первом случае сначала  с помощью методов автоматической классификации получают группировку  объектов в исходном многомерном  пространстве признаков, а затем  с помощью факторного анализа  выявляют небольшое количество основных факторов (как правило, ограничиваются двумя факторами). В результате каждый объект может быть представлен точкой на плоскости двух главных факторов, а каждый кластер – группой точек. Расположение этих групп на плоскости факторов определяет «статус» каждой из них, а также дает наглядную интерпретацию компактности полученных групп и их относительной удаленности друг от друга.

При использовании второй схемы типологического анализа  вначале применяют один из методов  факторного анализа, а затем, исходя из полученных значений факторных весов для каждого из объектов, строят автоматическую классификацию объектов в пространстве уже меньшей размерности, определяемой числом факторов. Такой подход используется обычно в ситуации, когда имеется большое число равноправных признаков, многие из которых взаимосвязаны и в значительной мере дублируют друг друга.

Итак, можно сделать  вывод, что методы многомерного статистического  анализа – кластер-анализ, факторный анализ, многомерный регрессионный анализ взаимно дополняют друг друга. Особенно тесная связь наблюдается между кластерным и факторным анализом. Теоретический анализ показал, что их комплексное (взаимно дополняющее) применение особенно эффективно.

То, что факторный анализ можно использовать для задач классификации известно давно. Нами была сформулирована и успешно проверена идея, что точно так же результаты факторного анализа частично можно заменить результатами кластер-анализа, но не по объектам, а по признакам. Это даст возможность наглядно увидеть группировку признаков и, следовательно, предположить общие факторы, действием которых можно заменить воздействие целого кластера признаков.

В то же время данный факт ни в коей мере не умаляет роли факторного анализа, поскольку последний дает конкретную количественную оценку вкладов того или иного признака в фактор или самого фактора в общую дисперсию. Преимущество же кластер-анализа в более быстром получении результата, а главное в наглядности данных.

Проверка проводилась  на ряде тестовых примеров, ставших уже классическими2 и на материале одного массового статистического источника – Кратких бюджетных сведений по хуторским и общинным крестьянским хозяйствам Симбирской губернии3.

Выбор данного источника  не случаен.

Симбирская губерния с географической точки зрения находилась в зоне лесов и лесостепи. Здесь была сосредоточена основная часть коренного населения – мордвы, чувашей, татар, удмуртов, марийцев. Они составили удельную и государственную деревню, в которой были сильны родо-племенные, патриархальные традиции общинности в хозяйственном поведении4. Поэтому тип свободного хозяина-фермера здесь не мог прижиться. То есть даже имевшиеся хуторские хозяйства по стилю хозяйствования недалеко ушли от традиционного крестьянства. Это осложняет задачу выделения хуторян в отдельный хозяйственный тип путем многомерного статистического анализа. Следовательно, приходится искать наиболее эффективные методы, использовать результаты нескольких методов, чаще использовать сравнительный анализ полученных результатов.

Итак, для обработки статистических данных, относящихся к хуторским и общинным хозяйствам Симбирской губернии использовались кластер-анализ и факторный анализ Выбор этих методов органично удовлетворяет особенностям источника.

На основании сравнительного анализа всех программно реализованных методов кластер-анализа в выбранном статистическом пакете Statistica for Windows 95 v.6.0 можно сделать вывод, что наиболее четкую картину дают два метода Complete Linkage и Ward`s method. Первый из них учитывает все связи объектов и кластеров на этапе перерасчета расстояний, в отличие от упоминавшегося выше и наиболее часто применяемого агломеративно-иерархического, а также Single Linkage, которые начинают работу с одной пары объектов. Именно он представляется нам наиболее удачным.

Нами был произведен анализ бюджетных  описаний хуторян и общинников Симбирского  уезда с целью выявления степени  отличия хуторского хозяйства Симбирской губернии от общинного.

Для решения этой задачи из источника были отобраны 27 признаков, по которым предположительно было бы возможным выделить хуторское хозяйство в самостоятельный тип, а также выявить особенности крестьянского и хуторского типа хозяйства.

Увидеть выделение хуторского типа удалось, только используя наиболее совершенные алгоритмы кластерного анализа. Затем тоже с помощью кластерного анализа были выявлены группы признаков, которые можно объяснить действием следующих основных факторов:

  • фактор потребления, исходящего из личных потребностей
  • фактор, характеризующий денежную массу, которой распоряжается семья
  • стремление к традиционному ведению хозяйства.
  • потребность в жилищном комфорте
  • уровень развития скотоводства
  • фактор задержки рыночного развития

Практически те же самые  факторы выявляются и в результате факторного анализа, но времени на обработку данных уходит больше. Однако для глубокого анализа полученных факторов он все же незаменим. Например, выяснилось, что данная модель объясняет более 80 % дисперсии (разброса данных), что считается очень удачным фактом5 и говорит о правильности выбранных признаков.

Сравнительный анализ результатов  для общинников и хуторян показывает несколько закономерностей.

1. Промыслы были у  хуторян менее развиты, чем  у общинников и занимались  ими только для удовлетворения  личных потребностей.

2. Основную денежную  массу общинники получали от садоводства и от продуктов скотоводства.

3. Торгово-промышленными  заведениями (как и промыслами) занимались больше общинники. (Здесь  сказалось влияние третьего фактора,  которое подавляло развитие этих  отраслей у хуторян.)

4. Потребность в жилищном комфорте больше реализовывалась у хуторян.

5. Общинникам для строительства  построек, видимо, часто приходилось  брать в долг.

6. Личное потребление  было сильнее выражено у общинников.

Итак, утверждение о возможности  частичной замены результатов факторного анализа результатами кластерного анализа, имеющее большую практическую ценность, было проверено на конкретном материале и оказалось справедливым.

Информация о работе Об особенностях применения многомерного статистического анализа в исторических исследованиях