Автор работы: Пользователь скрыл имя, 16 Сентября 2013 в 11:25, реферат
Как известно, в исторических исследованиях довольно часто возникают задачи, которые невозможно решить традиционными методами, но совершенно реально решать при помощи современных компьютерных технологий. В первую очередь, это касается проблемы повышения информативной отдачи статистических источников, выявления из них «скрытой», неявной информации. Успешно работать над данной проблемой можно с использованием разных статистических методов, но, безусловно, самым эффективным здесь является многомерный статистический анализ. С его помощью можно классифицировать объекты, не вычленяя их из естественно образованных ими связей, что неизбежно делают историки, проводя типологизацию по одному – максимум пяти признакам.
Коновалов А.В.
Самарский государственный университет
Как известно, в исторических исследованиях довольно часто возникают задачи, которые невозможно решить традиционными методами, но совершенно реально решать при помощи современных компьютерных технологий. В первую очередь, это касается проблемы повышения информативной отдачи статистических источников, выявления из них «скрытой», неявной информации. Успешно работать над данной проблемой можно с использованием разных статистических методов, но, безусловно, самым эффективным здесь является многомерный статистический анализ1. С его помощью можно классифицировать объекты, не вычленяя их из естественно образованных ими связей, что неизбежно делают историки, проводя типологизацию по одному – максимум пяти признакам. Только многомерный статистический анализ позволяет проводить первичную обработку эмпирических данных в рамках системного исследования.
Именно системный подход диктует нам некоторые правила, которым должно следовать, применяя методы многомерного статистического анализа. Во-первых, они должны использоваться в комплексе. Во-вторых, необходимо четко определять границы возможности интерпретации полученных результатов. В-третьих, (и это пересекается с предыдущим) применять эти методы нужно очень осторожно, проверять их использованием всего арсенала доступных нам средств.
Исходная информация в массовых
источниках часто может быть представлена
в виде набора объектов, каждый из которых
характеризуется рядом признаков (показателей).
В качестве объектов могут выступать хозяйства,
поселения, административно-
Как показывает опыт анализа массовых источников, число объектов может достигать многих десятков и сотен; число признаков также может исчисляться десятками. Очевидно, непосредственный (визуальный) анализ матрицы данных при большом количестве объектов и признаков практически малоэффективен – можно лишь выявить отдельные особенности изучаемой структуры, извлечь иллюстративные частные примеры. В этих условиях возникают задачи укрупнения, концентрации исходных данных, т.е. построения обобщенных характеристик множества признаков и множества объектов. Решение этих задач может осуществляться с помощью современных методов многомерного статистического анализа. При этом методы, ориентированные на анализ структуры множества признаков и выявление обобщенных факторов, известны как методы факторного анализа, а методы анализа структуры множества объектов образуют совокупность методов автоматической классификации.
Будем считать, что все признаки измерены в количественной шкале. Тогда каждый объект может быть представлен точкой в многомерном пространстве признаков. Характер распределения этих точек в рассматриваемом пространстве определяет структуру сходства и различия объектов в заданной системе показателей.
О сходстве объектов можно судить по расстоянию между соответствующими точками. Содержательный смысл такого понимания сходства означает, что объекты тем более близки, похожи в рассматриваемом аспекте, чем меньше различий между значениями одноименных показателей.
Для определения близости пары точек в многомерном пространстве обычно используют евклидово расстояние, равное корню квадратному из суммы квадратов разностей значений одноименных показателей, взятых для данной пары объектов:
Вычислив расстояние между парой объектов, получим квадратную матрицу D, имеющую размеры n´n (по числу объектов); эта матрица, очевидно, симметрична.
Матрица расстояний служит основой
для реализации методов кластерного
анализа, в том числе и агломеративно-
Обычно близость двух кластеров определяется как средний квадрат расстояния между всеми такими парами объектов, где один объект пары принадлежит к одному кластеру, а другой - к другому.
Таким образом, метод кластерного анализа включает n-1 аналогичных шагов. При этом после выполнения k-го шага (k £ n-1) число кластеров равно n-k (некоторые из них могут являться отдельными объектами), а матрица D имеет размеры (n-k)´(n-k) В конце этой процедуры, на (n-1)-м шаге, получится кластер, объединяющий все n объектов.
Результаты классификации, построенной изложенным методом, удобно изобразить в виде дерева иерархической структуры (дендограммы), содержащего n уровней, каждый из которых соответствует одному из шагов описанного процесса последовательного укрупнения кластеров.
Важнейшей составной частью многих исторических исследований оказывается задача выявления и анализа структуры взаимосвязей показателей, выбранных для описания того или иного явления или процесса. При наличии количественной информации, записанной в виде матрицы исходных данных, для решения указанной задачи может быть привлечен корреляционный анализ.
Естественно, перед исследователем встает вопрос: каковы причины, обусловившие такую структуру взаимосвязей показателей в данном явлении?
В решении поставленного вопроса существенную помощь может оказать метод многомерного статистического анализа – факторный анализ. Известно, что взаимосвязь двух или более показателей объясняется либо тем, что они взаимно обуславливают друг друга, либо тем, что на каждый из них воздействует некий скрытый, не входящий в данную группу признак. В факторном анализе исходят из второй ситуации. Основное предположение этого метода состоит в следующем: любое явление или процесс могут быть описаны небольшим числом некоторых скрытых, обобщенных характеристик, которые не поддаются непосредственному наблюдению, но воздействуют на «внешние», наблюдаемые показатели, определяют их изменения и обуславливают тем самым взаимосвязи между ними. Эти скрытые характеристики явления в факторном анализе называются общими факторами.
Таким образом, сложную структуру взаимосвязей показателей в каком-либо явлении факторный анализ объясняет наличием у этого явления небольшого числа скрытых, обобщенных характеристик – общих факторов. Каждый общий фактор в той или иной мере воздействует на все исходные показатели; те из них, чьи изменения в наибольшей степени определяются этим фактором, оказываются тесно связанными между собой.
Во многих исследованиях наблюдается
тенденция к объединению
В первом случае сначала
с помощью методов
При использовании второй схемы типологического анализа вначале применяют один из методов факторного анализа, а затем, исходя из полученных значений факторных весов для каждого из объектов, строят автоматическую классификацию объектов в пространстве уже меньшей размерности, определяемой числом факторов. Такой подход используется обычно в ситуации, когда имеется большое число равноправных признаков, многие из которых взаимосвязаны и в значительной мере дублируют друг друга.
Итак, можно сделать вывод, что методы многомерного статистического анализа – кластер-анализ, факторный анализ, многомерный регрессионный анализ взаимно дополняют друг друга. Особенно тесная связь наблюдается между кластерным и факторным анализом. Теоретический анализ показал, что их комплексное (взаимно дополняющее) применение особенно эффективно.
То, что факторный анализ можно использовать для задач классификации известно давно. Нами была сформулирована и успешно проверена идея, что точно так же результаты факторного анализа частично можно заменить результатами кластер-анализа, но не по объектам, а по признакам. Это даст возможность наглядно увидеть группировку признаков и, следовательно, предположить общие факторы, действием которых можно заменить воздействие целого кластера признаков.
В то же время данный факт ни в коей мере не умаляет роли факторного анализа, поскольку последний дает конкретную количественную оценку вкладов того или иного признака в фактор или самого фактора в общую дисперсию. Преимущество же кластер-анализа в более быстром получении результата, а главное в наглядности данных.
Проверка проводилась на ряде тестовых примеров, ставших уже классическими2 и на материале одного массового статистического источника – Кратких бюджетных сведений по хуторским и общинным крестьянским хозяйствам Симбирской губернии3.
Выбор данного источника не случаен.
Симбирская губерния с географической точки зрения находилась в зоне лесов и лесостепи. Здесь была сосредоточена основная часть коренного населения – мордвы, чувашей, татар, удмуртов, марийцев. Они составили удельную и государственную деревню, в которой были сильны родо-племенные, патриархальные традиции общинности в хозяйственном поведении4. Поэтому тип свободного хозяина-фермера здесь не мог прижиться. То есть даже имевшиеся хуторские хозяйства по стилю хозяйствования недалеко ушли от традиционного крестьянства. Это осложняет задачу выделения хуторян в отдельный хозяйственный тип путем многомерного статистического анализа. Следовательно, приходится искать наиболее эффективные методы, использовать результаты нескольких методов, чаще использовать сравнительный анализ полученных результатов.
Итак, для обработки статистических данных, относящихся к хуторским и общинным хозяйствам Симбирской губернии использовались кластер-анализ и факторный анализ Выбор этих методов органично удовлетворяет особенностям источника.
На основании сравнительного анализа всех программно реализованных методов кластер-анализа в выбранном статистическом пакете Statistica for Windows 95 v.6.0 можно сделать вывод, что наиболее четкую картину дают два метода Complete Linkage и Ward`s method. Первый из них учитывает все связи объектов и кластеров на этапе перерасчета расстояний, в отличие от упоминавшегося выше и наиболее часто применяемого агломеративно-иерархического, а также Single Linkage, которые начинают работу с одной пары объектов. Именно он представляется нам наиболее удачным.
Нами был произведен анализ бюджетных
описаний хуторян и общинников Симбирского
уезда с целью выявления
Для решения этой задачи из источника были отобраны 27 признаков, по которым предположительно было бы возможным выделить хуторское хозяйство в самостоятельный тип, а также выявить особенности крестьянского и хуторского типа хозяйства.
Увидеть выделение хуторского
типа удалось, только используя наиболее
совершенные алгоритмы кластерн
Практически те же самые факторы выявляются и в результате факторного анализа, но времени на обработку данных уходит больше. Однако для глубокого анализа полученных факторов он все же незаменим. Например, выяснилось, что данная модель объясняет более 80 % дисперсии (разброса данных), что считается очень удачным фактом5 и говорит о правильности выбранных признаков.
Сравнительный анализ результатов для общинников и хуторян показывает несколько закономерностей.
1. Промыслы были у хуторян менее развиты, чем у общинников и занимались ими только для удовлетворения личных потребностей.
2. Основную денежную массу общинники получали от садоводства и от продуктов скотоводства.
3. Торгово-промышленными
заведениями (как и промыслами)
занимались больше общинники. (Здесь
сказалось влияние третьего
4. Потребность в жилищном комфорте больше реализовывалась у хуторян.
5. Общинникам для строительства построек, видимо, часто приходилось брать в долг.
6. Личное потребление
было сильнее выражено у
Итак, утверждение о возможности частичной замены результатов факторного анализа результатами кластерного анализа, имеющее большую практическую ценность, было проверено на конкретном материале и оказалось справедливым.