Прогнозирование частоты упоминаний закрытых городов в еженедельной газете г. Сарова "Городской курьер"

Автор работы: Пользователь скрыл имя, 20 Июня 2013 в 15:21, курсовая работа

Описание работы

Целью данной работы является построение адекватной модели прогноза ряда.
Исходным рядом служит частота встречаемости названий закрытых административно-территориальных преобразований в еженедельных выпусках газеты г. Сарова «Городской курьер» с 3 июня 1997 года по 11 мая 2005 года. Таким образом, ряд содержит 414 точек. Каждое значение ряда представляет собой сумму частоты встречаемости следующих ЗАТО Минатома: Трехгорного, Снежинска, Лесного, Заречного, Зеленогорска, Озерска, Новоуральска, Железногорска, Северска во всех статьях данного выпуска

Содержание работы

Цель и задачи работы 3
Выбор методов прогнозирования 3
Анализ сезонности ряда с помощью Спектрального (Фурье) анализа 4
Прогнозирование ряда методом АРИМА с интервенцией 5
Разложение ряда на компоненты методом Сезонной корректировки X-11 (метод Census II) 11
Прогнозирование ряда без шумовой компоненты методом Экспоненциального сглаживания 15
Окончательная оценка прогнозов: сравнение прогнозных значений с истинными 17

Файлы: 1 файл

SasaPrognoz_kursovaya.doc

— 636.50 Кб (Скачать файл)

 

 

 

МИНИСТЕРСТВО  НАУКИ И ОБРАЗОВАНИЯ  РОССИЙСКОЙ ФЕДЕРАЦИИ

ГОСУДАРСТВЕННОЕ ОБРАЗОВАТЕЛЬНОЕ  УЧРЕЖДЕНИЕ ВЫСШЕГО ПРОФЕССИОНАЛЬНОГО  ОБРАЗОВАНИЯ

«НИЖЕГОРОДСКИЙ ГОСУДАРСТВЕННЫЙ  УНИВЕРСИТЕТ им. Н. И. ЛОБАЧЕВСКОГО»


 

Факультет социальных наук

Кафедра прикладной социологии

 

 

 

 

 

 

Курсовая работа

 

магистранта 2 года обучения дневного отделения

направления

социология – 521200

Масловой Александры Николаевны

 

ПРОГНОЗИРОВАНИЕ ЧАСТОТЫ УПОМИНАНИЙ ЗАКРЫТЫХ ГОРОДОВ В ЕЖЕНЕДЕЛЬНОЙ ГАЗЕТЕ Г. САРОВА «ГОРОДСКОЙ КУРЬЕР»

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

Нижний Новгород – 2006 г.

 

Содержание

 

 

 

Цель и задачи работы

Целью данной работы является построение адекватной модели прогноза ряда.

Исходным рядом служит частота встречаемости названий закрытых административно-территориальных преобразований в еженедельных выпусках газеты г. Сарова «Городской курьер» с 3 июня 1997 года по 11 мая 2005 года. Таким образом, ряд содержит 414 точек. Каждое значение ряда представляет собой сумму частоты встречаемости следующих ЗАТО Минатома: Трехгорного, Снежинска, Лесного, Заречного, Зеленогорска, Озерска, Новоуральска, Железногорска, Северска во всех статьях данного выпуска.

Анализ и прогнозирование временного ряда в программе Statistica позволит решить следующие задачи:

  • выявить наличие сезонности и определить ее лаги (периоды)
  • определить тренд-циклическую компоненту ряда
  • выявить и снять нерегулярную (шумовую) компоненту ряда
  • построить прогнозы различными методами и оценить их.

Выбор методов прогнозирования

Для того, чтобы выбрать методы прогнозирования рассмотрим исходный ряд.

 

График 1. Исходный ряд: частота встречаемости названий ЗАТО в газете

 

 

Исходя из представленного графика, можно сделать вывод о том, что закрытые города Минатома упоминаются в газете г. Сарова довольно редко. Лишь иногда наблюдается значительное увеличение значений. Это может быть связано с некоторыми «внешними воздействиями», например, обсуждением новых законов о ЗАТО, изменением их финансирования и др.. Такие «внешние воздействия» называются интервенциями. Следовательно, для прогнозирования необходимо выбрать метод АРИМА с интервенцией (АРИМА прерванная).

В данном ряде отсутствует тренд, т. е. на протяжении девяти лет о ЗАТО Минатома в газете пишут примерно одинаково редко. Зато можно предположить наличие аддитивной сезонности, однако, эту гипотезу необходимо проверить с помощью спектрального (Фурье) анализа.

Из графика не ясно, какова логика ряда – какие значения ряда можно обозначить, как белый шум, какие же составляют тренд-циклическую компоненту. Также сложно сказать о сезонных факторах. Разложить ряд на 3 типа компонент позволит метод сезонной корректировки X-11 (метод Census II).

Анализ сезонности ряда с помощью Спектрального (Фурье) анализа

Спектральный анализ позволит распознать основные периодические компоненты и в дальнейшем использовать их в  других моделях прогнозирования.

Итак, в диалоговом окне Спектрального  анализа выберем опцию Спектральный анализ одного ряда (Single series Fourier analysis). Также поставим флажки для некоторых преобразований исходного ряда перед самим анализом. Флажок напротив трансформации Вычитание среднего (Subtract mean)  означает, что из значений ряда будет вычитаться выборочное среднее. Флажок напротив трансформации Вычитание тренда (Detrend) означает, что из значений ряда будет вычитаться линейный тренд.

 

Рисунок1. Диалоговое окно Спектрального  анализа

 

 

Спектральный анализ с заданными  трансформациями показал наличие  пяти наивысших пиков периодограммы. Точные значения периодограммы см. на рис. 2.

 

Рисунок 2. Диалоговое окно представления  результатов Спектрального анализа

 

 

Наглядно просмотреть пики значений и соответствующие им периоды  можно на периодограмме.

 

График 2. Периодограмма результатов Спектрального анализа

 

 

Из периодограммы видно, что  наиболее существенными являются 4 пика, причем, наиболее значим пик, соответствующий  периоду ок. 80 точек. Конкретную длину  периодов можно выяснить с помощью  таблицы наибольших значений периодограммы.

 

Таблица 1. Наибольшие значения периодограммы

 

 

Наибольшие значения периодограммы в соответствующем столбце (Periodog) соответствуют длинам периодов в столбце Период (Period). Таким образом, с помощью Спектрального анализа выделяются 4 основных периода сезонности: 83, 3, 17, 5. Именно эти периоды следует учитывать при построении моделей прогноза.

Прогнозирование ряда методом АРИМА  с интервенцией

Для построения адекватной модели прогноза необходимо преобразовать исходный ряд таким образом, чтобы он стал стационарным. При этом рассмотрим его распределение.

 

Гистограмма 1. Распределение исходного ряда

 

 

График 3. Распределение исходного ряда

 

 

Из гистограммы и графика  видно, что распределение исходного  ряда далеко от нормального. Поэтому следующей задачей является необходимое преобразование ряда. Из всех возможных способов преобразования ряда наилучшим является двухступенчатое преобразование с помощью натурального логарифма (благодаря которому уменьшается дисперсия ряда) и 4253 Фильтра. В результате распределение преобразованного ряда близко к нормальному.

 

Гистограмма 2. Распределение преобразованного ряда

 

 

График 4. Распределение преобразованного ряда

 

 

Сделав ряд стационарным, можно  определить параметры модели АРИМА  прерванная. Для этого рассмотрим автокоррелограмму и частную автокоррелограмму преобразованного ряда.

 

Гистограмма 3. Автокорреляционная функция преобразованного ряда

 

 

Гистограмма 3. Частная автокорреляционная функция преобразованного ряда

 

 

Автокорреляционная функция экспоненциально убывает, а частная автокорреляционная функция имеет выбросы на двух первых лагах. При таком поведении функций необходима модель с двумя параметрами авторегрессии без параметров скользящего среднего.

Прогнозирование методом АРИМА  прерванная подразумевает наличие интервенций, значительно изменяющих значения ряда с некоторого лага. Для того, чтобы определить число интервенций, их типы воздействий и точки ряда, с которых начинаются данные интервенции, необходимо вернуться к графику исходного ряда (график 1).

На графике видно наличие  пяти интервенций, причем, все они  одного типа – скачкообразное временное  воздействие. Это значит, что события, повлиявшие на частоту упоминаний закрытых городов Минатома, существенно не изменили последующие значения ряда. Исходя из графика 5 можно также приблизительно оценить, на каких точках ряда имеют место воздействия. Однако, точные значения необходимо выяснить на основе таблицы исходных данных.

 

Таблица 2. Исходные данные: частота  встречаемости названий ЗАТО в газете

 

 

Выбрав из таблицы исходных данных наивысшие значения ряда и номера точек, получаем следующую таблицу.

 

Таблица 3. Наивысшие значения ряда

 

Номер ячейки

Дата выпуска газеты

Значение ряда

138

20 января 2000 г.

30

157

1 июня 2000 г.

15

237

13 декабря 2001 г.

50

404

2 марта 2005 г.

13

407

23 марта 2005 г.

12


 

Обращение к выпускам газеты «Городской курьер», в которых ЗАТО Минатома упоминаются наиболее часто, показывает, что эти всплески связаны со следующими событиями:

  • Совещание в Минатоме по обсуждению метода ипотеки во всех ЗАТО
  • Визит в Саров мэра и председателя городского совета г. Снежинска
  • Поездка в г. Снежинск председателя городской Думы и др. чиновников г. Сарова
  • Заседание Координационного совета «Инициативы ядерных городов» в Вашингтоне
  • Поездка в г. Снежинск журналиста газеты «Городской курьер»
  • Лыжный мемориал, на который съехались спортсмены из ЗАТО
  • Взятие под стражу мэра г. Снежинска.

В диалоговом окне АРИМА прерванная проставляем параметры, выделенные на предыдущих этапах анализа1.

 

Рисунок 3. Диалоговое окно построения модели прогноза методом АРИМА с интервенцией

 

 

В диалоговом окне результатов укажем уровень доверия 90 %, а также необходимость построения прогноза на 25 шагов вперед.

 

Рисунок 4. Диалоговое окно результатов  применения модели прогноза методом АРИМА с интервенцией

 

 

На графике прогноза методом  АРИМА с интервенцией видно, значения ряда будут колебаться в пределах от 0 до 2-ух с периодом сезонности 5 точек. Модель предсказывает отсутствие всплесков и тренда. Доверительный интервал довольно небольшой. Точные значения прогноза, доверительный интервал и стандартные ошибки представлены в таблице 4.

 

График 5. Прогноз частоты упоминаний названий ЗАТО в газете методом АРИМА с интервенцией

 

 

Таблица 4. Прогноз частоты упоминаний названий ЗАТО в газете методом АРИМА с интервенцией

 

Forecasts; Model:(2,1,0) 4 Interventions (Sheet1 in Imported) 
Input: Частота упоминаний ЗАТО 
Start of origin: 1 End of origin: 414

CaseNo.

Forecast

Lower 90,0000%

Upper 90,0000%

Std.Err.

 

CaseNo.

Forecast

Lower 90,0000%

Upper 90,0000%

Std.Err.

415

1,885509

-1,28053

5,051546

1,920344

 

428

0,991709

-4,51768

6,501102

3,341696

416

2,091222

-1,07550

5,257949

1,920763

 

429

-0,00135

-5,51081

5,508113

3,341738

417

1,012622

-2,16781

4,193060

1,929079

 

430

1,886257

-4,46838

8,240897

3,854377

418

0,991724

-2,18871

4,172161

1,929079

 

431

2,091364

-4,26359

8,446322

3,854570

419

-0,001354

-3,18191

3,179203

1,929152

 

432

1,012555

-5,34924

7,374351

3,858717

420

1,886256

-2,60188

6,374392

2,722258

 

433

0,991709

-5,37009

7,353505

3,858717

421

2,091365

-2,39722

6,579950

2,722530

 

434

-0,00135

-6,36320

6,360508

3,858754

422

1,012555

-3,48571

5,510817

2,728400

 

435

1,886257

-5,22011

8,992627

4,310335

423

0,991709

-3,50655

5,489971

2,728400

 

436

2,091364

-5,01529

9,198018

4,310507

424

-0,001348

-4,49970

4,496998

2,728451

 

437

1,012555

-6,10021

8,125325

4,314217

425

1,886257

-3,61487

7,387385

3,336683

 

438

0,991709

-6,12106

8,104479

4,314217

426

2,091364

-3,41013

7,592859

3,336906

 

439

-0,00135

-7,11417

7,111475

4,314249

427

1,012555

-4,49684

6,521948

3,341696

           

 

Для оценки адекватности построенного прогноза необходимо провести анализ остатков. Как видно из гистограммы  и графика остатков их значения близки к нормальному распределению, следовательно прогноз можно считать адекватным.

 

Гистограмма 4. Распределение остатков прогноза методом АРИМА с интервенцией

 

 

График 6. Распределение остатков прогноза методом АРИМА с интервенцией

 

 

Разложение ряда на компоненты методом  Сезонной корректировки X-11 (метод Census II)

Применение метода Сезонной корректировки  Х-11 позволит разделить ряд на 3 составляющих: тренд-циклическую, сезонную компоненту и белый шум. Сложив тренд-циклическую  и сезонную компоненту, получим ряд  без внешних воздействий. Это  даст возможность определить логику ряда с тем, чтоб впоследствии построить прогноз. Данный метод применим только для рядов длиной не более 360 точек, поэтому был построен ряд без 54 начальных значений.

В диалоговом окне метода Сезонной корректировки Х-11 задаем параметр модели – ряд с аддитивной сезонностью. В закладке Output выбираем таблицы и графики для вывода на экран. Для анализа нам необходимы таблицы окончательного оценивания сезонных факторов, тренд-циклической и нерегулярной компонент ряда (D10-D13) и все графики.

 

Рисунок 5. Диалоговое окно метода Сезонной корректировки ряда Х-11

 

 

Рисунок 6. Диалоговое окно вывода результатов  Сезонной корректировки Х-11 ряда на экран

 

 

Результаты разложения ряда наглядно представлены на графиках. На графике  7 жирной линией выделена тренд-циклическая компонента ряда. Ее значения редко поднимаются выше двух упоминаний ЗАТО в каждом выпуске газеты. На графике 8 жирной линией выделена сезонность ряда с лагом 12. На графике 9 представлена шумовая компонента ряда. Именно в данной компоненте содержатся выбросы. Из этого можно заключить, что информация довольно большого объема о закрытых городах Минатома проскальзывает в газете «Городской курьер» лишь изредка, в связи с какими-либо событиями, и не входит в число регулярно обсуждаемых тем. Говорить о наличии тематической рубрики, в которой обсуждались бы вопросы о ЗАТО также не приходится. Журналисты не подбирают специально материал о ЗАТО Минатома, однако, описывая жизнь города Сарова они довольно часто вскользь упоминают и другие ЗАТО (ведь значения тренд-циклической и сезонной компонент не нулевые). Из всего этого следует, что построить адекватный прогноз довольно сложно, ведь внешние воздействия непредсказуемы.

Информация о работе Прогнозирование частоты упоминаний закрытых городов в еженедельной газете г. Сарова "Городской курьер"