Автор работы: Пользователь скрыл имя, 17 Марта 2013 в 11:10, дипломная работа
На основании результатов кластерного анализа формируются выводы, уточняется система целей проекта и формируется план – график работ по формированию задач, выявленных при анализе. В данной работе на основании анализа были получены выводы, которые будут использоваться для дальнейшего развития интернет-магазина и привлечения новых посетителей.
Результаты финансового анализа, представленные в виде больших массивов чисел, не сильно упрощают процесс принятия решений. Можно сгруппировать результаты в таком виде, чтобы процесс принятия решений стал более эффективным. Можно визуализировать данные и результаты анализа так, чтобы аналитик разом мог охватить их взглядом.
Введение…………………………………………………………………….3
Глава 1……………………………………………………………………...7
Описание интернет-проекта………………………………………...7
Задачи проекта……………………………………………………..20
Глава 2. Общее представление о методах кластерного анализа............22
Введение в кластерный анализ……………………………………22
Измерение близости объектов…………………………………….26
Характеристики близости объектов………………………………28
Методы кластерного анализа……………………………………..30
Иерархические алгоритмы………………………………………...31
Примеры использования кластерного анализа…………………..36
Глава 3. Результаты кластерного анализа……………………………....42
Кластерный анализ посещаемости интернет-магазина по городам……………………………………………………………...42
Кластерный анализ реализации по интернет-магазину………….50
Кластерный анализ посещаемости интенет-магазина по возрасту посетителей………………………………………..………………..55
Кластерный анализ сезонности посещения интернет-магазина...58
Выводы…………………………………………………………………….63
Заключение………………………………………………………………..64
Приложение……………………………………………………………….67
Список литературы……………………………………………………….74
Если сразу несколько
объектов (классов) имеют минимальное
расстояние, то возможны две стратегии:
выбрать одну случайную пару
или объединить сразу все пары.
Первый способ является
Результаты работы всех иерархических процедур обычно оформляют в виде так называемой дендрограммы (рис. 2.4.1 – 2.4.3). В дендрограмме номера объектов располагаются по горизонтали, а по вертикали – результаты кластеризации.
Рис. 2.4.1.
Рис. 2.4.3.
Расстояния между кластерами
На первом шаге, когда каждый объект представляет собой отдельный кластер, расстояния между этими объектами определяются выбранной мерой. Однако когда связываются вместе несколько объектов, возникает вопрос, как следует определить расстояния между кластерами? Другими словами, необходимо правило объединения или связи для двух кластеров.
Здесь имеются различные
возможности: например, вы можете
связать два кластера вместе,
когда любые два объекта в
двух кластерах ближе друг
к другу, чем соответствующее
расстояние связи. Другими
1. Расстояние «Ближайшего соседа» (Одиночная связь). Первый шаг 1.–7. совпадает с первым шагом алгоритма Обобщенная алгомеративная процедура. Расстояние равно расстоянию между ближайшими объектами классов.
2. Расстояние «Дальнего соседа» (Полная связь). Расстояние равно расстоянию между самыми дальними объектами классов.
3. Невзвешенное попарное среднее. В этом методе расстояние между двумя различными кластерами вычисляется как среднее расстояние между всеми парами объектов в них. Метод эффективен, когда объекты в действительности формируют различные рощи, однако он работает одинаково хорошо и в случаях протяженных (цепочного типа) кластеров.
4. Взвешенное попарное среднее. Метод идентичен методу невзвешенного попарного среднего, за исключением того, что при вычислениях размер соответствующих кластеров (то есть число объектов, содержащихся в них) используется в качестве весового коэффициента. Поэтому предлагаемый метод должен быть использован (скорее даже, чем предыдущий), когда предполагаются неравные размеры кластеров.
5. Невзвешенный центроидный метод. В этом методе расстояние между двумя кластерами определяется как расстояние между их центрами тяжести.
6. Взвешенный центроидный метод (медиана). Тот метод идентичен предыдущему, за исключением того, что при вычислениях используются веса для учёта разницы между размерами кластеров (то есть числами объектов в них). Поэтому, если имеются (или подозреваются) значительные отличия в размерах кластеров, этот метод оказывается предпочтительнее предыдущего.
7. Метод Варда (Ward, 1963). В этом методе в качестве целевой функции применяют внутригрупповую сумму квадратов отклонений, которая есть не что иное, как сумма квадратов расстояний между каждой точкой (объектом) и средней по кластеру, содержащему этот объект. На каждом шаге объединяются такие два кластера, которые приводят к минимальному увеличению целевой функции, то есть внутригрупповой суммы квадратов (SS). Этот метод направлен на объединение близко расположенных кластеров.
Рассмотрим несколько примеров кластеризации:
Эволюционное (филогенетическое дерево, дерево жизни) — дерево, отражающее эволюционные взаимосвязи между различными видами или другими сущностями, имеющими общего предка.
Вершины филогенетического дерева делятся на три класса: листья, узлы и (максимум один) корень. Листья — это конечные вершины, то есть те, в которые входят ровно по одному ребру; каждый лист отображает некоторый вид живых организмов (или иной объект, подверженный эволюции, например, домен белка). Каждый узел представляет эволюционное событие: разделение предкового вида на два или более, которые в дальнейшем эволюционировали независимо. Корень представляет общего предка всех рассматриваемых объектов. Ребра филогенетического дерева принято называть «ветвями».
Идея «дерева» появилась в ранних взглядах на жизнь, как на процесс развития от простых форм к сложным. Современные эволюционные биологи продолжают использовать деревья для иллюстрации эволюции, так как они наглядно показывают взаимосвязи между живыми организмами.
Австралийскими учёными было составлено очень интересное генеалогическое дерево всех млекопитающих, посредством проведённого кластерного анализа.
Чёрным цветом изображены представители отряда Однопроходные или Яйцекладущие (Monotremata), оранжевым – Сумчатые (Marsupialia), синим – надотряд Афротериев (Afrotheria), жёлтым – отряд Неполнозубые (Xenarthra), зелёным – надотряд Лавразиотериев или плацентарных млекопитающих (Laurasiatheria), красным – надотряд плацентарных млекопитающих Euarchontoglires (рис.2.5):
Рис. 2.5. Генеалогическое дерево всех млекопитающих
Кластерное генеалогическое дерево чётко и наглядно иллюстрирует степень родства между всеми млекопитающими рис.2.6.
Рис. 2.6. Генеалогическое дерево всех млекопитающих
Если увеличить и подробнее посмотреть на представителей отряда Приматы рис.2.7.
Рис. 2.7. Генеалогическое дерево всех млекопитающих
На изображении чётке видно что мы, Homo sapiens, находимся практически в том же кластере, что и Pan troglodytes (Шимпанзе обыкновенный) и Pan paniscus (Шимпанзе карликовый) рис.2.8.
Рис. 2.8. Генеалогическое дерево всех млекопитающих
Родословное или генеалогическое древо — схематичное представление родственных связей, родословной росписи в виде условно-символического «дерева», у «корней» которого указывается родоначальник, на «стволе» — представители основной (по старшинству) линии рода, а на «ветвях» — различных линиях родословия, известные его потомки — «листья».
Генеалогическое древо Александра Сергеевича Пушкина по данным сайта «Всероссийское Генеалогическое Древо» рис. 2.9.
Рис. 2.9 Генеалогическое древо Александра Сергеевича Пушкина
Прадед Александра Сергеевича (на карте родословного дерева отмеченно голубым цветом) был сыном эфиопского князя, служившего у Петра I. Это один из восьми прямых предков Пушкина в четвёртом поколении.
ГЛАВА 3. РЕЗУЛЬТАТЫ КЛАСТЕРНОГО АНАЛИЗА
3.1. Кластерный анализ посещаемости интернет-магазина по городам
Для анализа были выбраны города, где присутствуют постоянные оптовые клиенты. Это Москва, Санкт-Петербург, Киев, Новосибирск, Екатеринбург, Красноярск, Ижевск, Воронеж, Днепропетровск, Омск. Численность населения по данным городам указанна в таблице 3.1:
Таблица 3.1.
Города |
Численность населения |
Москва |
11514000 |
Санкт-Петербург |
4849000 |
Киев |
3144000 |
Новосибирск |
1474000 |
Екатеринбург |
1350000 |
Омск |
1154000 |
Челябинск |
1130000 |
Днепропетровск |
1009000 |
Красноярск |
974000 |
Воронеж |
890000 |
Ижевск |
628000 |
Одна из задач успешной продажи, определить из каких регионов приходят на сайт клиенты. Был организован сбор информации на эту тему рис. 3.1.
Рис. 3.1. Посещаемость интернет-магазина
Рассмотрим результаты кластеризации по методу одиночной связи (Single Linkage) и выберем Евклидово расстояние (Euclidean distances) рис. 3.2:
Рис. 3.2.
Образовалось 10 кластеров. Среди них можно выделить посетителей двух городов: Москва и Санкт-Петербург. Дальше кластерное дерево забивается на две группы: город Киев и все остальные региональные города. Для более точного анализа я оставил только региональные города рис. 3.3.
Образовалось 7 кластеров. Мы можем видеть, что кластерное дерево разбилось на 2 группы: 1-ая группа – Новосибирск и Екатеринбург; 2-ая группа – все остальные города. Следующее показывает, что чем больше численность населения группы, тем больше посетителей заходят на сайт с этого города. Численность населения в Новосибирске 1474000 человек, в Екатеринбурге – 1350000 человек, что на порядок выше, чем в остальных городах. Самая маленькая численность в Ижевске – 628000 человек. На дендрограмме Ижевск входит в один и тот же кластер с Днепропетровском, в котором 1009000 человек. Можно сделать вывод: чем больше город, тем больше посетителей. Но для того и делается анализ что бывают исключения. В нашем примере мы видим, что город Красноярск с численность 974000 человек (по нашему списку городов занимает 6 позицию по численности из 8) образует один из самых больших кластеров. Поэтому при реализации товара стоит обратить внимание на Красноярск и продумать маркетинговую политику для этого региона.
Рассмотрим результаты кластеризации по методу невзвешенного попарного среднего (Unweighted pair-group average) и выберем Евклидово расстояние (Euclidean distances) рис.3.4:
Образовалось 10 кластеров. При сравнении с методом одиночной связи (Single Linkage) можно увидеть, что кластеры распределились таким же образом.
Для более точного анализа рассмотрим результаты кластеризации по методу невзвешенного попарного среднего (Unweighted pair-group average) и выберем Евклидово расстояние (Euclidean distances) по региональным центрам рис.3.5:
Рис. 3.5.
Образовалось 7 кластеров. При сравнении с методом одиночной связи (Single Linkage) можно увидеть, что кластеры распределились таким же образом.
Рассмотрим результаты кластеризации по методу невзвешенного попарного среднего (Unweighted pair-group average) и выберем Манхэттенское расстояние (расстояние городских кварталов, City-block (Manhattan) distance) рис. 3.6:
Рис. 3.6.
Образовалось 10 кластеров. При сравнении с другими рассмотренными методами можно увидеть, что кластеры распределились таким же образом.
Для более точного анализа рассмотрим результаты кластеризации по методу невзвешенного попарного среднего (Unweighted pair-group average) и выберем Манхэттенское расстояние (расстояние городских кварталов, City-block (Manhattan) distance) по региональным центрам рис. 3.7:
Образовалось 7 кластеров. При сравнении с другими рассмотренными методами можно увидеть, что кластеры распределились таким же образом.
Вывод: При анализе посещаемости сайта по разным регионам наибольшее число посетителей заходит на сайт, как и ожидалось, с двух городов: Москва и Санкт-Петербург. При этом обнаружилось, что с Санкт-Петербурга посетителей больше. Бывают города исключения, с маленькой численностью населения на которые стоит обратить внимание. Возможно, большое количество заходов на сайт объясняется неразвитой сетью магазинов в этих городах, и население ищет альтернативу на интернет сайтах. В этих городах стоит более активно использовать рекламу, искать представителей для увеличения продаж.
3.2. Кластерный
анализ реализации по интернет-
Была собрана статистика реализации товара за 6 месяцев рис. 3.8:
Рис. 3.8.
Рассмотрим результаты кластеризации по методу одиночной связи (Single Linkage) и выберем Евклидово расстояние (Euclidean distances) рис.3.9:
Рис. 3.9.
Образовалось 8 кластеров. Можно
выделить, что кластерное дерево разделилось
на 2 большие части: обувь и вся
остальная продукция. В свою очередь
остальная продукция
Рассмотрим результаты кластеризации по методу одиночной связи (Single Linkage) и выберем Манхэттенское расстояние (расстояние городских кварталов, City-block (Manhattan) distance) рис.3.10:
Рис. 3.10.
Образовалось 9 кластеров. И
похожие группы – обувь, аксессуары
и вся остальная одежда. Но теперь
в кластере аксессуаров можно
увидеть изменения, теперь сумки
и ремни образовали свой кластер,
а на прошлом графике его
Информация о работе Решение экономических задач в информационном обеспечении Интернет-проекта