یک چارچوب جدید انباشت چند الگوریتمی برای مدیریت ریسک اعتباری پیشرفته

نوع مقاله : مقاله پژوهشی

نویسندگان

1 گروه اقتصاد، دانشگاه آیت الله بروجردی، بروجرد، ایران.

2 گروه پژوهشی هوش مصنوعی گهر، دانشگاه آیت اله بروجردی، بروجرد، ایران.

3 گروه پژوهشی علوم داده زاگرس، دانشگاه آیت اله بروجردی، بروجرد، ایران.

4 گروه مهندسی کامپیوتر، دانشگاه آیت الله العظمی بروجردی، بروجرد، ایران.

چکیده

پیش‌بینی ریسک اعتباری همچنان یکی از چالش‌های محوری مؤسسات مالی است؛ ارزیابی‌های نادرست می‌تواند زیان‌های مالی قابل‌توجه و تضعیف پایداری سیستم مالی را به‌دنبال داشته باشد. در این مطالعه یک چارچوب چند‌سطحی از نوع دنباله(stacking) معرفی شده است که از Gradient Boosting، XGBoost و Random Forest به‌عنوان یادگیرنده‌های پایه و رگرسیون لجستیک به‌عنوان متا‑لرنانر استفاده می‌کند. برای مقابله با عدم‌تعادل کلاسی از بازنمونه‌سازی مصنوعی استفاده نشده و به‌جای آن یک پروتکل مدیریت کلاس شامل وزن‌دهی کلاسی در هر فولد، کالیبراسیون احتمالات و تنظیم نقطه عملیاتی به‌کار گرفته شده تا کلاس اقلیت (نکول) بدون تولید نمونه‌های مصنوعی به‌طور منصفانه پردازش شود. ارزیابی روی دو مجموعه‌داده مرجع UCI (German و Australian credit) انجام شد؛ از تقسیم ثابت آموزش/آزمون استفاده و برای انتخاب مدل از اعتبارسنجی متقاطع طبقه‌بندی شده 10 بخش روی مجموعه آموزش بهره گرفته شد؛ مدل‌های نهایی با پارامترهای انتخاب‌شده روی کل مجموعه آموزش بازآموزی و یک‌بار روی مجموعه آزمون نگهدارنده ارزیابی شدند. نتایج نشان می‌دهد که گروه دنباله‌ای (stacked ensemble) به‌طور مکرر عملکرد بهتری نسبت به یادگیرنده‌های منفرد در معیارهای متوازن مانند F1 و شاخص همبستگی مَتِیوِز (MCC) ارائه می‌دهد و در عین حال قابلیت تبیین را از طریق احتمالات کالیبره‌شده یادگیرنده‌های پایه و ضرایب قابل‌تفسیر رگرسیون لاجستیک حفظ می‌کند. تحلیل تجربی روی تأثیر تحلیل مؤلفه‌های اصلی (PCA) نشان می‌دهد که اثر PCA وابسته به مجموعه‌داده است: در حالی که برای برخی طبقه‌بندهای ساده می‌تواند مفید باشد، برای گروه‌هایی که حساس به تعاملات پیچیده هستند ممکن است کارایی را کاهش دهد. مقاله همچنین چارچوبی عملی برای استقرار ارائه می‌دهد که شامل جایگذاری مدیریت کلاس در جریان مدل‌سازی، کالیبراسیون قبل از متالرنینگ و ارزیابی هزینه‌محور متناسب با عملیات ریسک اعتباری است.

کلیدواژه‌ها

موضوعات


Alam, T. M., Fazli, A., Rahman, S., & Choudhury, T. (2020). An investigation of credit card default prediction in the imbalanced datasets. IEEE Access, 8, 201173–201198. https://doi.org/10.1109/ACCESS.2020.3033405.
Aruleba, I. T., & Sun, Y. (2025). An improved ensemble method with data resampling for credit risk prediction. IEEE Access, 13, 71275–71287. https://doi.org/10.1109/ACCESS.2025.XXXXX.
Breiman, L. (2001). Random forests. Machine Learning, 45, 5–32. https://doi.org/10.1023/A:1010933404324.
Bulut, C., & Arslan, E. (2024). Comparison of the impact of dimensionality reduction and data splitting on classification performance in credit risk assessment. Artificial Intelligence Review, 57(9), 252.‏
Chen, T., & Guestrin, C. (2015). XGBoost: Extreme gradient boosting (R package version 0.4-2, Vol. 1, No. 4, pp. 1–4).
Dornadula, V. N., & Geetha, S. (2019). Credit card fraud detection using machine learning algorithms. Procedia Computer Science, 165, 631–641. https://doi.org/10.1016/j.procs.2020.01.077.
Du, P., & Shu, H. (2022). Exploration of financial market credit scoring and risk management and prediction using deep learning and bionic algorithm. Journal of Global Information Management, 30(9), 1–29. https://doi.org/10.4018/JGIM.2022090101.
Emmanuel, I., Sun, Y., & Wang, Z. (2024). A machine learning-based credit risk prediction engine system using a stacked classifier and a filter-based feature selection method. Journal of Big Data, 11(1), 23. https://doi.org/10.1186/s40537-024-xxxx-x.
Friedman, J. H. (2001). Greedy function approximation: A gradient boosting machine. The Annals of Statistics, 29(5), 1189–1232. https://doi.org/10.1214/aos/1013203451.
García, V., Marques, A. I., & Sánchez, J. S. (2012). Improving risk predictions by preprocessing imbalanced credit data. In Neural Information Processing (Vol. 67, pp. 68–75). https://doi.org/10.1007/978-3-642-34711-9_8.
Guo, S., He, H., & Huang, X. (2019). A multi-stage self-adaptive classifier ensemble model with application in credit scoring. IEEE Access, 7, 78549–78559. https://doi.org/10.1109/ACCESS.2019.2921383.
Han, J., Pei, J., & Tong, H. (2022). Data mining: Concepts and techniques (4th ed.). Morgan Kaufmann.
Han, W., Gu, X., & Jian, L. (2023). A multi-layer multi-view stacking model for credit risk assessment. Intelligent Data Analysis, 27(5), 1457–1475. https://doi.org/10.3233/IDA-220791.
Hoseini, S. M., Ebtia, M., & Khochiani, R. (2024). An ensemble method based on bagging SVM for credit rating problem. Soft Computing Journal. https://doi.org/10.1007/s00500-024-xxxx-x.
Khemakhem, S., & Boujelbene, Y. (2018). Predicting credit risk on the basis of financial and non-financial variables and data mining. Review of Accounting and Finance, 17(3), 316–340. https://doi.org/10.1108/RAF-07-2017-0108.
Kunapuli, G. (2023). Ensemble methods for machine learning. Simon & Schuster.
La Gatta, V., Postiglione, M., & Sperlì, G. (2025). A novel augmentation strategy for credit scoring modeling. Neural Computing and Applications, 37, 6663–6675. https://doi.org/10.1007/s00521-024-xxxx-x.
Liu, J., Liu, J., Wu, C., & Wang, S. (2024). Enhancing credit risk prediction based on ensemble tree-based feature transformation and logistic regression. Journal of Forecasting, 43(2), 429–455. https://doi.org/10.1002/for.XXXX.
Moradi, S., & Mokhatab, R. F. (2019). A dynamic credit risk assessment model with data mining techniques: Evidence from Iranian banks. Financial Innovation, 5(1), 15. https://doi.org/10.1186/s40854-019-0135-0.
Noriega, J., Rivera, L. A., & Herrera, J. (2023). Machine learning for credit risk prediction: A systematic literature review. Data, 8(11), 169. https://doi.org/10.3390/data8110169.
Powers, D. M. W. (2011). Evaluation: From precision, recall and F-measure to ROC, informedness, markedness & correlation. Journal of Machine Learning Technologies, 2(1), 37–63.
Quan, J., & Sun, X. (2024). Credit risk assessment using the factorization machine model with feature interactions. Humanities and Social Sciences Communications, 11(1), 1–10. https://doi.org/10.1057/s41599-024-xxxx-x.
Rehman, Z. U., Muhammad, N., Sarwar, B., & Raz, M. A. (2019). Impact of risk management strategies on the credit risk faced by commercial banks of Balochistan. Financial Innovation, 5(1), 44. https://doi.org/10.1186/s40854-019-0142-1.
Religia, Y., Pranoto, G. T., & Santosa, E. D. (2020). South German credit data classification using random forest algorithm to predict bank credit receipts. JISA (Jurnal Inform dan Sains), 3(2), 62–66.
Song, Y., & Peng, Y. (2019). A MCDM-based evaluation approach for imbalanced classification methods in financial risk prediction. IEEE Access, 7, 84897–84906. https://doi.org/10.1109/ACCESS.2019.2925034.
Veeramanikandan, V., & Jeyakarthic, M. (2021). Parameter-tuned deep learning model for credit risk assessment and scoring applications. Recent Advances in Computer Science and Communications, 14(9), 2958–2968. https://doi.org/10.2174/2356607514666210526141120.
Wei, Y., Kirkulak-Uludag, B., Zhu, D., & Luo, X. (2023). Stacking ensemble method for personal credit risk assessment in P2P lending. SSRN. https://doi.org/10.2139/ssrn.4318348.
Wolpert, D. H. (1992). Stacked generalization. Neural Networks, 5(2), 241–259. https://doi.org/10.1016/S0893-6080(05)80023-1.
Wu, C., Gao, D., & Xu, S. (2021). A credit risk predicting hybrid model based on deep learning technology. International Journal of Machine Learning and Computing, 11(3). https://doi.org/10.18178/ijmlc.2021.11.3.xxx.
Zhao, Z., & Aumeboonsuke, V. (2023). Imbalanced credit risk prediction in ensemble learning classifiers: A comparative analysis of SMOTE, ADASYN, SMOTETomek, and cluster centroids. Journal of Arts Management, 7(3), 959–984.
Zou, Y., & Gao, C. (2022). Extreme learning machine enhanced gradient boosting for credit scoring. Algorithms, 15(5), 149. https://doi.org/10.3390/a15050149.