Tytuł
Modelowanie ryzyka kredytowego z wykorzystaniem interpretowalnego algorytmu XGBOOST
ORCID
Marcin Hernes: 0000-0002-3832-8154
Jędrzej Adaszyński: 0009-0006-1731-1210
Piotr Tutak: 0000-0002-0976-4037
Keywords
credit risk, risk modeling, XGBoost, machine learning interpretability, explainable artificial intelligence
Słowa kluczowe
ryzyko kredytowe,modelowanie ryzyka,XGBoost,interpretowalność uczenia maszynowego,wyjaśnialna sztuczna inteligencja
Abstract
Purpose: The aim of the paper is to develop a credit risk assessment model usingb the XGBoost classifier supported by interpretation issues. Design/methodology/approach: The risk modeling is based on Extreme Gradient Boosting (XGBoost) in the research. It is a method used for regression and classification problems. It is based on a sequence of decision trees using a gradient-based optimization method of the loss function to minimize the errors of weak estimators. We use also methods for performing local and global interpretability: ceteris paribus charts, SHAP and feature importance approach. Findings: Based on the research results, it can be concluded that XGBoost achieved higher values of performance metrics than logistic regression, except sensitivity. It means that XGBoost indicated a smaller percentage of all bad client. Results of local interpretability enable a conclusion that in the case of the client in question, the credit decision is positively influenced by credit scores from external suppliers, while it is negatively influenced by minimal external scoring and short seniority. The number of years in the car and higher education are also positive. Such information helps to justify a negative credit decision. Results of global interpretability enable a conclusion that higher values of the traits associated with the z-scores are accompanied by negative Shapley values, which can be interpreted as a negative effect on the explanatory variable. Research limitations/implications: XGBoost, A ceteris paribus plot, SHAP, and feature importance methods can be used to develop a credit risk assessment model including machine learning interpretability. The main limitation of research is to compare the results of XGBoost only to the logistic regression results. Future research should focus on comparing the results of XGBoost to other machine learning methods, including neural networks. Originality/value: One of the key processes in a bank is the credit decision process, which is the evaluation of a client’s repayment risk. In the consumer finance sector, the processes are usually largely automated, and increasingly the latest machine learning methods based on neural networks and ensemble learning methods are being used for the purpose. Although machine learning models allow for achieving higher accuracy of credit risk assessment compared to traditional statistical methods, the main problem is the low interpretability of machine learning models. The models often perform as the “black box”. However, the interpretation of the results of risk assessment models is very important due to the need to explain to the client the reasons for assessing their credit risk.
Abstrakt
Cel: celem niniejszych badań jest opracowanie modelu oceny ryzyka kredytowego z wykorzystaniem klasyfikatora XGBoost z uwzględnieniem interpretowalności tego modelu. Metodologia: w niniejszych badaniach w celu modelowania ryzyka wykorzystano metodę Extreme Gradient Boosting (XGBoost). Jest to metoda stosowana do problemów regresji i klasyfikacji. Opiera się na sekwencji drzew decyzyjnych wykorzystujących gradientową metodę optymalizacji funkcji straty w celu minimalizacji błędów słabych estymatorów. Wykorzystano również metody umożliwiające dokonanie lokalnych i globalnych interpretacji: wykresy ceteris paribus, SHAP i badanie ważności cech. Wyniki: na podstawie wyników badań można stwierdzić, że XGBoost osiągnął wyższe wartości metryk efektywności niż regresja logistyczna, z wyjątkiem wartości metryki czułości, Oznacza to, że XGBoost wskazał mniejszy odsetek wszystkich złych klientów. Wyniki interpretacji lokalnej pozwalają stwierdzić, że w przypadku klienta na decyzję kredytową pozytywnie wpływają oceny punktowe od zewnętrznych dostawców, liczba lat samochodu oraz wykształcenie wyższe, natomiast negatywnie wpływają niska zewnętrzna ocena scoringowa oraz krótki staż pracy. Taka informacja pozwala na uargumentowanie negatywnej decyzji kredytowej. Wyniki interpretacji globalnej pozwalają wnioskować, że wyższym wartościom cech związanych ze wskaźnikami towarzyszą ujemne wartości Shapleya, co można interpretować jako negatywny efekt wpływu na zmienną objaśniającą. Ograniczenia/implikacje badawcze: metody XGBoost, A ceteris paribus plot, SHAP i feature importance mogą być wykorzystane do opracowania modelu oceny ryzyka kredytowego z uwzględnieniem interpretowalności uczenia maszynowego. Głównym ograniczeniem badań jest porównanie wyników XGBoost jedynie z wynikami regresji logistycznej. Przyszłe badania powinny skupić się na porównaniu wyników XGBoost z innymi metodami uczenia maszynowego, w tym z sieciami neuronowymi Oryginalność/wartość: jednym z kluczowych procesów realizowanych w bankach, jest proces podejmowania decyzji dotyczących udzielenia kredytów, czyli ocena ryzyka spłaty zobowiązania przez klienta. W sektorze finansów konsumenckich procesy te są zwykle w dużym stopniu zautomatyzowane, a coraz częściej wykorzystuje się w tym celu najnowsze metody uczenia maszynowego oparte na sieciach neuronowych i metodach uczenia zespołowego. Choć modele uczenia maszynowego pozwalają na osiągnięcie wyższej dokładności oceny ryzyka kredytowego w porównaniu z tradycyjnymi metodami statystycznymi, to głównym problemem jest niska interpretowalność modeli uczenia maszynowego. Modele te często występują jako „black box”. Interpretacja wyników modeli oceny ryzyka jest jednak bardzo ważna ze względu na konieczność wyjaśnienia klientowi powodów oceny jego ryzyka kredytowego.
Recommended Citation
Hernes, M., Adaszyński, J., & Tutak, P. (2023). Credit Risk Modeling Using Interpreted XGBoost. European Management Studies, 21(3), 46-70. https://doi.org/10.7172/2956-7602.101.3
First Page
46
Last Page
70
Page Count
24
DOI
10.7172/2956-7602.101.3
Publisher
University of Warsaw
Publication Date
2023-12-27