В результате обучения выбранного алгоритма классификации получаем таблицу, в которой каждая значимая характеристика разделена на несколько частей, называемых атрибутами, и каждому атрибуту присвоено некое целочисленное значение балла.
Рассчитанный балл соответствует вкладу атрибута в общую разделительную способность характеристики.
Значение константы соответствует минимально возможной сумме набранных заемщиком баллов, если при оценке по скоринговой модели он попадет в атрибуты с нулевым значением балла во всех характеристиках.
Посчитаем сумму баллов для мужчины 50 лет, отца двоих детей, владельца кредитной карты банка, имеющего положительную кредитную историю, с текущей кредитной нагрузкой менее 25% дохода, отработавший в отрасли и на последнем месте работы неизвестный период времени.
Константа – 301 балл. За принадлежность к мужскому полу заемщик не получает баллов, поскольку характеристика «Пол» в модели не присутствует. Возраст заемщика попадает в атрибут от 49 до 51, за это прибавляем к константе 73 балла. За двух детей добавляем 63 балла, за наличие кредитной карты – 84 балла, за положительную кредитную историю – 180 баллов, за невысокую кредитную нагрузку еще – 85 баллов, за неизвестный стаж в отрасли – 7 баллов (Класс пропусков), за неизвестный стаж на последнем рабочем месте – 79 баллов.
Общая сумма набранных баллов 301+73+63+84+180+85+7+79=872. Много это или мало? Поговорим об этом позднее, когда надо будет выбирать пороговый балл или, иначе, балл отсечения.
Пока ясно, что с готовой скоринговой моделью можно работать как в ручном режиме на калькуляторе, так и в табличном редакторе. Однако, при увеличении входящего потока заявок до сотен и тысяч в день стоит задуматься о внедрении автоматической системы поддержки принятия решения, которая будет выполнять в том числе и эту работу.
Оценка качества скоринговой модели
Для оценки качества скоринговой модели разработано множество методов и метрик, основными из которых считаются индекс Джини, индекс AUC и статистика Колмогорова-Смирнова.
Коэффициенты показывают меру ошибок разного рода, допущенных при классификации. Ошибками являются ситуации, когда модель «хорошего» заемщика признала «плохим» и наоборот. Чем меньше ошибок, тем выше значения коэффициентов и больше площадь закрашенной фигуры на рисунке.
Расчет коэффициентов выполняется и для обучающей части данных и для тестовой. Если кривые на рисунке и значения коэффициентов для обучающей и тестовой частей данных относительно близки, то модель адекватна. Если значения коэффициентов при и этом достигают некоторых заданных значений, то такой моделью можно пользоваться для классификации заемщиков.
Продолжение следует …
Справка:
Loginom Company — Ведущая российская компания, специализирующаяся на разработке систем для глубокого анализа данных, охватывающих вопросы сбора, интеграции, очистки данных, построения моделей и визуализации. Помогаем внедрять инновации, принимать более обоснованные и правильные управленческие решения для увеличения прибыли, снижения затрат и предотвращения рисков как коммерческим, так и государственным компаниям.