Визначення поняття Data Mining

Автор работы: Пользователь скрыл имя, 14 Мая 2013 в 18:48, курсовая работа

Описание работы

Метою даної роботи є побудова модель інтелектуального аналізу даних з використанням алгоритму асоціативних правил на базі інформаційного сховища підприємства.
Для досягнення цієї мети необхідно вирішити ряд задач:
створити структуру інформаційного сховища на базі OLTP (Online Transaction Process) бази даних, що містить інформацію про продажі товарів;
організувати періодичне перевантаження даних з OLTP в інформаційне сховище;
створити модель інтелектуального аналізу структури споживчої корзини по алгоритму асоціативних правил;
провести аналіз моделі і прогнозування.

Файлы: 1 файл

3 часть база.doc

— 1.06 Мб (Скачать файл)

 

4 СТРУКТУРА ІНФОРМАЦІЙНОГО СХОВИЩА ДЛЯ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ

 

 

4.1 Характеристика  джерела даних для інформаційного сховища

 

У даній роботі за основу була узята БД-зразок Microsoft – Adventure Works[18]. Проект Adventure Works описує роботу виробника велосипедів - компанії "Adventure Works Cycles".  Компанія займається виробництвом і реалізацією велосипедів з металевих і композиційних матеріалів на території Північної Америки, Європи і Азії. Головне виробництво, яке має в своєму розпорядженні 500 співробітників, знаходиться в місті Bothell, штат Вашингтон. Декілька регіональних офісів знаходяться безпосередньо на території ринків збуту.

Компанія  реалізує продукцію оптом для  спеціалізованих магазинів і  на роздріб через Інтернет. Для вирішення демонстраційних завдань ми використовуватимемо в базі AdventureWorks дані об інтернет продажах, оскільки вони містять дані, які добре підходять для аналізу.

На  рисунку 4.1 представлена транзакційна бази даних AdventureWorks, відділу продаж, яка містить наступні таблиці:

  • таблиця SalesTaxRate – в якій містяться податкові ставки, вживані в областях або країнах і регіонах, в яких компанія Adventure Works Cycles здійснює ділову активність;
  • таблиця ShoppingCartItem – містить замовлення клієнтів через інтернет до моменту виконання або відміни;
  • таблиця SpecialOfferProduct – в якій приведені знижки на різні види (найменування) продукції;
  • таблиця SpecialOffer – в якій містяться знижки на продаж;
  • таблиця CountryRegionCurrency – зіставляє коди валют по стандартах Міжнародної організації по стандартизації (ISO) і коди країн або регіонів;
  • таблиця Currency – містить описи валют по стандартах Міжнародної організації стандартизації (ISO);
  • таблиця SalesTerritoryHistory – у таблиці відстежуються переміщення комерційних представників в інші комерційні території;
  • таблиця SalesTerritory – в якій містяться території продажів, які обслуговуються групами продажів Adventure Works Cycles;
  • таблиця SalesPersonQuotaHistory – містить зведення по історії продажів для комерційних представників;
  • таблиця Store – містить список замовників, торгівельних посередників, що купують продукти в Adventure Works;
  • таблиця CurrencyRate – містить курси обміну валюти;
  • таблиця SalesPerson – містить поточні відомості про продажі для комерційних представників;
  • таблиця SalesOrderDetail – містить окремі продукти, пов'язані з певним замовленням на продаж. Замовлення на продаж може містити замовлення на декілька продуктів;
  • таблиця SalesOrderHeader – містить відомості про загальне або батьківське замовлення на продаж;
  • таблиця Customer – містить поточні відомості про замовника. Клієнти розбиті на категорії по типах — приватний споживач або магазин роздрібної торгівлі;
  • таблиця StoreContact  – в якій зіставляються магазини і їх службовці, з якими безпосередньо співробітничають торгівельні представники компанії Adventure Works Cycles;
  • таблиця SalesReason – в якій містяться можливі причини придбання клієнтом певного продукту;
  • таблиця SalesOrderHeaderSalesReason – в якій замовлення на продаж зіставляються з кодами причин продажів;
  • таблиця CustomerAddress – зіставляє замовників з їх адресами. Наприклад, замовник може мати різні адреси для виставляння рахунків і доставки. 

 

4.2 Структура інформаційного сховища

 

 

Для подальшого інтелектуального аналізу було розроблено структуру інформаційного сховища на базі схеми «сніжинка». На рисунку приведена логічна схема інформаційного сховища.

 

Рисунок 4.2 – Сховище даних

 

На цій схемі таблиці вимірювань містять інформацію про покупців (DimCustomer), про товари (DimProduct), про місце продаж (DimSalesTerritory), про час продаж (DimTime); консольні таблиці: під категорія товарів (DimProductSubcatecory), категорія товарів (DimProductCategory), узагальнене місце продажів (DimGeography) і таблиця фактів FactInternetSales містіть ключі для зв’язків с таблицямі вимірювань (ProductKey, OrderDateKey, DueDateKey, ShipDateKey, CustomerKey, SalesTerritoryKey), а також самі дані для подальшого аналізу (SalesOrderNumber, SalesOrderLineNumber, OrderQuantity, ExtendedAmount).

4.4 В`ювері для структури інтелектуального аналізу по алгоритму асоціативних правил

 

 

Для полегшення аналізу створюються 2 в`ювера vAssocSeqLineItems і vAssocSeqOrders.

Рисунок 4.4 – SQL- на створення vAssocSeqLineItems

 

Рисунок 4.5 – на створення vAssocSeqOrders

 

Ці вьювери создаються на підставі вьювера vDMPrep, який у свою чергу був створений з таблиць сховища AdventureWorks.

Рисунок 4.6 – на створення vDMPrep

5 РЕАЛІЗАЦІЯ МОДЕЛІ ІНТЕЛЕКТУАЛЬНОГО АНАЛІЗУ  В СЕРЕДОВИЩІ MS SQL SERVER 2005

 

 

5.1 Принцип роботи з  моделлю інтелектуального аналізу по алгоритму асоціативних правил

 

Для інтелектуального аналізу  даних в службах Microsoft SQL Server 2005 Analysis Services використовується  два основні  об'єкти:

  • структура інтелектуального аналізу даних; 
  • модель інтелектуального аналізу даних. 

Останніми об'єктами, що беруть участь в інтелектуальному аналізі даних, є стовпці структури інтелектуального аналізу і стовпці моделі інтелектуального аналізу.

Процес роботи з моделями інтелектуального аналізу полягає в наступному:

а) створення структури інтелектуального аналізу даних;

б) додання моделі; 

в) завдання параметрів моделі;

ґ) перегляд моделі;

д) прогнозування моделі.

Структура інтелектуального аналізу — це структура даних, що визначає домен даних, на основі якого будуються моделі інтелектуального аналізу. Одна структура інтелектуального аналізу може містити декілька моделей інтелектуального аналізу даних, що спільно використовують один домен.

Будівельними блоками  структури інтелектуального аналізу  є стовпці, які описують дані, що містяться в джерелі даних. Ці стовпці містять такі відомості, як тип даних, тип вмісту і способи розподілу даних.

Структура інтелектуального аналізу також може містити певні  вкладені таблиці. Вкладена таблиця  представляє зв'язок «один до багатьом»  між об'єктом варіанту і пов'язаними з ним атрибутами. Наприклад, якщо відомості, що описують клієнта, знаходяться в одній таблиці, а покупки цього клієнта знаходяться в іншій таблиці, то можна використовувати вкладені таблиці для комбінування відомостей в єдиний варіант. Ідентифікатором клієнта є об'єкт, а покупки — пов'язані з ним атрибути.

Модель інтелектуального аналізу даних застосовує алгоритм інтелектуального аналізу до даних, представлених структурою інтелектуального аналізу даних. Модель інтелектуального аналізу даних, як і структура інтелектуального аналізу, містить стовпці. Модель інтелектуального аналізу міститься в структурі інтелектуального аналізу і успадковує всі значення властивостей, визначених цією структурою. Модель може використовувати всі стовпці, що містяться в структурі інтелектуального аналізу даних, або підмножини цих стовпців.

На додаток до параметрів, визначених в структурі інтелектуального аналізу, модель інтелектуального аналізу  містить дві властивості: Algorithm і Usage. Параметр algorithm визначений в моделі інтелектуального аналізу, а параметр usage визначений в стовпці моделі інтелектуального аналізу. Опис цих параметрів приводиться нижче:

  • «Algorithm». Властивість моделі, що визначає алгоритм, використовуваний для створення моделі. У нашому випадку це алгоритм асоціативних правил.
  • «Usage». Властивість стовпця моделі, що визначає те, як стовпець використовується моделлю. Можна визначити стовпці як стовпці введення, ключові стовпці або прогнозовані стовпці.

Модель інтелектуального аналізу даних до обробки є просто порожнім об'єктом. При обробці моделі дані, визначені структурою, обробляються алгоритмом. Алгоритм ідентифікує правила і закономірності в даних, а потім використовує ці правила і закономірності для заповнення моделі.

Можна створювати декілька моделей, заснованих на одній і тій же структурі. Всі моделі, побудовані на основі однієї і тієї ж структури, мають бути засновані на одному і тому ж джерелі даних. Проте моделі можуть розрізнятися по стовпцях структури, способах їх використання, типові алгоритму для створення кожної моделі і параметрах для кожного алгоритму.

Для кожного алгоритму  є свій набір параметрів моделі, які не обходжений визначити. Для  моделі «Споживчої корзини»  це:

  • максимальний/мінімальний розмір (max/min itemset size)– кількість товару в корзині;
  • максимальна/мінімальна підтримка (max/min support) – кількість спостережень – покупок;
  • мінімальна значущість (min importance)– поріг, нижче якого не має сенсу проводити аналіз;
  • мінімальна вірогідність (min probability)– вірогідність попадання товару в корзину.

Після обробки моделі її можна проглянути за допомогою  призначених для користувача  засобів перегляду, що надаються  в середовищах Business Intelligence Development Studio і SQL Server Management Studio або шляхом передачі запитів моделі для виконання прогнозів.

Служби Microsoft SQL Server 2005 Analysis Services дозволяють використовувати прогнозуючий запит на мові розширень інтелектуального аналізу даних Data Mining Extensions (DMX) для прогнозування невідомих значень стовпців в новому наборі даних на основі результатів моделі інтелектуального аналізу даних.

 

 

 

5.2 Реалізація моделі за допомогою мови DMX

 

Data Mining Extensions (DMX) є мовою, яку ви можете використовувати, щоб створити і, працювати з data mining models in Microsoft SQL Server 2005 Analysis Services (SSAS). Ви можете використовувати DMX, щоб створити структуру нового data mining models, щоб тренувати ці моделі, і для перегляду, управління, і прогнозу.

Структура інтелектуального аналізу даних — це структура  даних, яка визначає наочну область, на основі якої будується модель інтелектуального аналізу даних. Одна структура інтелектуального аналізу може містити декілька моделей інтелектуального аналізу даних, спільно використовуючи один домен. Модель інтелектуального аналізу даних застосовує алгоритм інтелектуального аналізу до даних, представлених структурою інтелектуального аналізу даних.

Крок 1. Для створення структури інтелектуального аналізу, що містить вкладені таблиці, використовується інструкція CREATE MINING STRUCTURE (розширення інтелектуального аналізу даних). Код інструкції можна розбити на наступні частини:

  • привласнення структурі імені;
  • визначення ключового стовпця;
  • визначення стовпців інтелектуального аналізу даних;
  • визначення стовпців вкладених таблиць.

На рисунку  показана інструкція DMX на створення структури «Market Basket»

Рисунок 5.1 – Створення  структури

Рисунок 5.2 – Структура інтелектуального аналізу

 

Крок 2. На наступному етапі необхідно додати нову модель інтелектуального аналізу до структури інтелектуального аналізу «Споживацька корзина», заснованої на алгоритмі взаємозв'язків Microsoft, і змінити значення за умовчанням для параметра MINIMUM_PROBABILTY на 0.2. Зміна цього параметра приведе до створення більшої кількості правил алгоритмом взаємозв'язків Microsoft.

Інструкція ALTER MINING STRUCTURE (розширення інтелектуального аналізу  даних) використовується для додавання  до структури інтелектуального аналізу  моделі інтелектуального аналізу, що містить  вкладену таблицю. Код інструкції можна розбити таким чином:

  • визначення структури інтелектуального аналізу даних;
  • вказівка імені моделі інтелектуального аналізу;
  • визначення ключового стовпця;
  • визначення стовпців початкових даних і прогнозованих стовпців;
  • визначення стовпців вкладених таблиць;
  • ідентифікація алгоритму і змін параметра.

 

 

На рисунку  показана інструкція DMX на додання моделі «Modified Assocation» до структури «Market Basket»:

Рисунок 5.3 – Додання моделі до структури

 

Крок 3. На цьому занятті за допомогою інструкції INSERT INTO (розширення інтелектуального аналізу даних) і представлень vAssocSeqLineItems і vAssocSeqOrders із зразка бази даних AdventureWorksDW обробляються структури і моделі інтелектуального аналізу даних, створені Крок 1. Створення структури інтелектуального аналізу «Споживацька корзина» і Крок 2. Додавання моделей інтелектуального аналізу до структури інтелектуального аналізу «Споживацька корзина».

Код інструкції можна розбити на наступні частини:

  • визначення структури інтелектуального аналізу даних;
  • список стовпців структури інтелектуального аналізу даних;
  • визначення повчальних даних за допомогою інструкції SHAPE.

На рисунку  показана інструкція DMX на обробку структури і моделі:

Рисунок 5.4 – Обробка  структури і моделі

 

Після перевантаження модель підключається в Biseness Intelligence і виглядає таким чином:

Рисунок 5.5 – Модель інтелектуального аналізу

 

Крок 4. На цьому етапі буде створено  прогноз, заснований на моделі інтелектуального аналізу даних, якій був доданий в структуру «Споживацька корзина».

Информация о работе Визначення поняття Data Mining