Автор работы: Пользователь скрыл имя, 08 Мая 2015 в 16:28, курсовая работа
Постоянное совершенствование систем кредитования населения в условиях роста конкуренции между банками по праву может считаться для банка важнейшим условием формирования его репутации и престижности в качестве универсального кредитного учреждения, а также является дополнительным источником дохода от реализации кредитных операций с физическими лицами.
Следовательно, анализ кредитоспособности заемщика и методы оценки кредитоспособности физических лиц, в частности кредитный скоринг, который будет рассмотрен в данной курсовой работе, является весьма актуальной темой на сегодняшний день.
Введение…………………………………………………………………………..3
Скоринг как метод оценки кредитного риска………………………………….4
1.1 Понятие «скоринг», его цели и задачи…………………………………….4
1.2 Обзор и сравнение методов и подходов к созданию скоринговой модели..5
1.2.1 Линейный дискриминантный анализ……………………………………5
1.2.2 Многофакторная логическая регрессия…………………………………6
1.2.3 Кластерный анализ………………………………………………………..6
1.2.4 Деревья решений………………………………………………………….7
1.3 Построение скоринговой инфраструктуры……………………………….7
2 Понятие «Data Mining» и анализ его методов и стадий……………………8
2.1 Понятие «Data Mining»…………………………………………………… 8
2.2 Анализ стадий и методов Data Mining……………………………………8
3 Характеристики набора данных кредитного скоринга и выбор метода построения его модели………………………………………………………..10
3.1 Характеристика набора данных………………………………………….10
3.2 Кластерный анализ набора данных……………………………………...11
4 Проведение анализа кредитного скоринга физических лиц в аналитической платформе Deductor 5.3………………………………………………………14
4.1 Импорт текстового файла………………………………………………...14
4.2 Кластеризация набора данных алгоритмом k-means……………………19
Заключение…………………………………………………………………….29
Список источников……………………………………………………………30
Третья стадия. Выявление и фильтрация исключений.
На данной стадии идет обнаружение аномальных правил и их последующее исключение, фильтрация. Происходит это путем определения нормы, которая рассчитывается на первой стадии.
3 ХАРАКТЕРИСТИКА НАБОРА ДАННЫХ КРЕДИТНОГО СКОРИНГА И ВЫБОР МЕТОДА ПОСТРОЕНИЯ ЕГО МОДЕЛИ
3.1 Характеристика набора данных
Выборка «Определение кредитоспособности заемщиков с помощью кредитного скоринга» была взята с базы данных статистики «Datasets at the Department of Statistics, University of Munich», поддерживающейся Департаментом Статистики города Мюнхена. Данный архив содержит в себе множество наборов данных, широко известных в публикациях в области статистики. Все выборки архива были исследованы и проанализированы на факультетах Университета Мюнхена.
Набор данных «Определение кредитоспособности заемщиков с помощью кредитного скоринга» содержит в себе информацию о 1000 потребительских кредитов от немецкого банка. В выборке собраны заявки на предоставление кредита, где каждая заявка описывается 20-ю переменными и одной итоговой переменной («кредитоспособность»). Кроме того, каждой заявке соответствует значение, выдали ли заявителю кредит или нет.
Набор данных базируется на следующих 20 описывающих переменных:
В каждой переменной есть рубрика с вариантами (интервалами) значений переменной, по которым можно составить своеобразную анкету заемщика. Все варианты оцениваются по шкалам в зависимости от типа данных переменной:
Помимо этого, по каждому варианту значения переменной выборка содержит статистические данные о прошлых кредитополучателях (удачных кредитах и неудачных), представляющие собой относительную частоту в процентах.
Более подробно структуру выборки можно рассмотреть в Приложении 1.
3.2 Кластерный анализ набора данных
Проведя анализ предметных областей скоринговых систем и методологии Data Mining, можно с уверенностью сказать, что кластерный анализ - наиболее оптимальный метод построения скоринговой модели оценки кредитополучателей.
Методы кластерного анализа бывают двух видов:
Сущность иерархической кластеризации заключается в систематическом объединении кластеров меньшей разрядности в более крупные или наоборот.
Впрочем, при большом наборе данных иерархические методы кластерного анализа не могут дать качественный результат. Поэтому в подобных ситуациях используют неиерархические методы, которые базируются на итеративных методах разделения облака исходных данных. Новые кластеры подвергаются дроблению до тех пор, пока система не выполнит правило остановки.
Неиерархическая кластеризация содержит в себе два подхода. Первый (алгоритм k-средних) являет собой определение границ кластеров там, где наблюдается наибольшее "сгущение точек". Второй подход (алгоритм PAM) заключается в сокращении до минимума меры дифференциации объектов.
Так как набор данных «Определение кредитоспособности заемщиков с помощью кредитного скоринга» имеет объем равный 1000, то иерархическая кластеризация будет непригодна для создания его скоринговой модели. Следовательно, следует придерживаться итеративной группы методов.
Набор данных содержит 20 переменных, однако все они характеризуют разные признаки заемщика и, однозначно, не поддаются классификации. Соответственно, скоринговую модель целесообразно будет строить при помощи первого подхода итеративного метода.
В алгоритме k-средних можно выделить 2 этапа:
1) Начальное разбиение объектов (точек) на кластеры. Выбор центроидов (k) каждого кластера. В исходе этапа каждый объект относится к определенному кластеру.
2) Итерация.
Вычисляются центры кластеров, считающиеся средние координат кластеров. Объекты снова делятся. Процесс рассчитывания центров и деления точек продолжается до того момента, пока не будет выполнено одно из условий:
В наборе данных «Определение кредитоспособности заемщиков с помощью кредитного скоринга» возможно выделить лишь два кластера- «кредитоспособный заемщик» и «некредитоспособный». Очевидно, что число k (центроид) у первого кластера будет 1, у второго кластера - 0.
Таким образом, скоринговая модель в аналитической платформе Deductor 5.3 будет построена при помощи алгоритма k-средних итеративного метода кластерного анализа.
4 ПРОВЕДЕНИЕ АНАЛИЗА КРЕДИТНОГО СКОРИНГА ФИЗИЧЕСКИХ ЛИЦ В АНАЛИТИЧЕСКОЙ ПЛАТФОРМЕ DEDUCTOR 5.3
4.1 Импорт текстового файла
Алгоритм импорта данных из текстового файла в Мастере Импорта аналитической платформы Deductor 5.3 состоит из 6 шагов:
Перед началом работы с Deductor 5.3 следует проверить формат найденной выборки. Файл с выборкой должен быть формата txt.
Рисунок 1- Окно первого шага Мастера Импорта
Затем выбираем имя текстового файла, из которого планируем выполнить импорт данных. После этого в поле «Имя файла» окна Мастера импорта появится имя выбранного файла и путь.
Рисунок 2- Окно указания имени файла
Настраиваем параметры импорта и переходим к заданию разделителей, представлений значений и форматов.
Рисунок 3 - Настройка параметров импорта
Рисунок 4 - Настройка разделителей, представлений значений и форматов
На шаге настройка параметров столбцов указываем заголовок столбца из текстового файла. Тип данных указываем целочисленный либо логический, вид данных - непрерывный. Назначение у kredit ставим «Выходное», у остальных - «Входное».
Рисунок 5 - Настройка параметров столбцов
Запускаем процессор импорта с настроенными параметрами.
Рисунок 6- Запуск процессора
Запускаем процесс импорта данных из текстового файла. Выбираем способ отображения данных «Таблица».
Рисунок 7- Выбор способа отображения данных
Рисунок 8- Таблица с данными выборки
4.2 Кластеризация набора данных алгоритмом k-means
После импорта данных из текстового файла, запускаем Мастера обработки, раздел Data Mining, метод "Кластеризация".
Рисунок 9 – Главное окно Мастера Обработки
При запуске Мастера необходимо настроить назначения столбцов, т.е.
выбрать свойства, по которым будет происходить группировка объектов.
В наборе данных по кредитному скорингу назначение у переменной kredit (кредит) изменим на выходное, а у переменной laufkont (текущий счет) на информационное. У остальных переменных поставим назначение входное.
Рисунок 10 (а)- Настройка назначений столбцов
Рисунок 10 (b) - Настройка нормализации
На следующем шаге Мастера необходимо настроить способ разделения
исходного множества данных на тестовое и обучающее, а также количество
примеров в том и другом множестве. Укажем, что данные обоих множеств
берутся случайным образом, и определим все множество как обучающее.
Рисунок 11 – Разбиение исходного набора данных на подмножества
На следующем шаге настраиваем параметры кластеризации, определяя на какое количество кластеров будет распределяться исходное множество. У выборки по кредитному скорингу два кластера: кредитоспособные заемщики и некредитоспособные.
Рисунок 12- Настройка параметров кластеризации
Запускаем кластеризацию данных нажатием кнопки «Пуск».
Рисунок 13 – Кластеризация набора данных
Для отображения полученных групп кластеров выберем в обработчике
"Кластеризация" из списка визуализаторов способы отображения данных:
"Что-если" для решения задачи
классификации, "Профили кластеров"
для определения структуры
Рисунок 14- Определение способов отображения
Для настройки визуализатора "Куб" необходимо выбрать расматриваемые свойства как факты, а переменную kredit как измерение.
Рисунок 15- Настройка назначений полей куба
Рисунок 16 – Выбор отображаемых фактов, агрегации и вариантов их отображений
Общую структуру сформированных алгоритмом кластеров можно
просмотреть в визуализаторе "Профили кластеров". В нем представлены все
рассматриваемые свойства вместе с характером влияния их на состав
кластера.
Основным определяющим состав кластера фактором является
значимость свойств, выраженная в процентах. Общая значимость
рассматриваемого поля определяется вариабельностью ее рассматриваемых
параметров. Значимость для непрерывных полей устанавливается в
зависимости от отклонения среднего значения рассматриваемой группы
кластеров от общего среднего всей выборки, чем больше выражено данное
отклонение тем больше его значимость. Для каждого рассматриваемого свойства в кластере вычисляется: доверительный интервал, среднее, стандартное отклонение и стандартная ошибка.
Рисунок 17 (а) - Профили кластеров
Рисунок 17 (b) – Профили кластеров
Алгоритм автоматически разбил набор данных, состоящий из заемщиков, на два кластера с разной поддержкой и разными процентами значимости свойств. Первый кластер отражает процент кредитоспособных заемщиков, второй кластер - некредитоспособных.
Малозначимым и почти не влияющим на распределение свойством является ставка, при необходимости данным свойством можно пренебречь.
Рассмотрим полученные результаты также в таких вариантах отображения, как таблица и куб.
Рисунок 18 (а) – Кластеризация в варианте отображения «Таблица»
Рисунок 18 (b) – Кластеризация в варианте отображения «Таблица»
Рисунок 19 – Кластеризация в варианте отображения «Куб»
Из полученных результатов кластерного анализа набора данных кредитного скоринга можно сделать следующие заключения:
1) количество некредитоспособных заемщиков в наборе меньше, чем кредитоспособных на 7,2 %.
Информация о работе Оценка кредитоспособности физических лиц методом кредитного скоринга