Официальный интернет-магазин
Издательского Дома «Финансы и Кредит»
Телефон: +7 (925) 966-46-90
Адрес: 111397, г. Москва, ул. Зеленый проспект, д. 20
Электронная почта: shop@fin-izdat.ru
Статья опубликована в журнале: Финансы и кредит, 2019, Т. 25, № 11, С. 2534
Автор(ы): Роскошенко В.В.
Рубрика: Банковская деятельность
Аннотация
Предмет. Проблема несбалансированности классов в выборочных данных при моделировании дефолта кредитного требования, подходы к предварительной обработке данных, позволяющие преодолеть дисбаланс классов. Имеющиеся исследования по сопоставлению таких подходов выполнены либо в отношении небольшого числа методов, либо на специфических данных из отдельных областей деятельности. Ранее в литературе не рассмотрены подходы на основе сочетания методов предварительной обработки данных с ансамблевым решением (стэкингом).
Цели. Произвести поиск оптимального варианта по преодолению проблемы несбалансированности классов среди каждой из групп подходов для банковских данных о кредитовании физических лиц.
Методология. Использованы математическое моделирование, статистический анализ и контент-анализ источников.
Результаты. Показано, что подход EditedNearestNeighbours, будучи довольно сложным с вычислительной точки зрения, оказался оптимальным. В его основе — удаление представителей доминирующего класса, плохо удовлетворяющих своему окружению, которое определяется посредством кластеризации. Среди сочетаний подходов предварительной обработки данных и стэкинга оптимальным оказался вариант с RandomOverSampler. Последний предполагает увеличение доли миноритарного класса случайным образом и является одним из наиболее простых.
Область применения. Результаты могут быть использованы в кредитном скоринге и в любом статистическом моделировании, где требуется бинарная классификация.
Выводы. Осуществлено исчерпывающее сопоставление подходов по преодолению проблемы несбалансированности классов в выборочных данных. Были определены оптимальный подход среди подходов предварительной обработки данных, а также оптимальное сочетание подхода предварительной обработки данных с ансамблевым решением.
Ключевые слова: кредитный скоринг, логистическая регрессия, ансамбли, несбалансированность классов, бинарная классификация
Тип публикации: | Статья |
Формат: | |
Журнал: | Финансы и кредит |
Год публикации: | 2019 |
Месяц публикации: | ноябрь |