A Novel Multi-Algorithm Stacking Framework for Enhanced Credit Risk Management

Document Type : Research Paper

Authors

1 Department of Economics, Ayatollah Boroujerdi University, Boroujerd. Iran.

2 Gahar Artificial Intelligence Research Group, Ayatollah Boroujerdi University, Boroujerd, Iran.

3 Zagros Data Sciences Research Group, Ayatollah Boroujerdi University, Boroujerd, Iran.

4 Department of Computer Engineering,, Ayatollah Boroujerdi University, Boroujerd, Iran.

Abstract

redit risk prediction remains a central challenge for financial institutions because inaccurate assessments can cause substantial financial losses and systemic instability. This study introduces a multi‑level stacking ensemble that combines Gradient Boosting, Extreme Gradient Boosting (XGBoost), and Random Forest as base learners with logistic regression as the meta‑learner. To address class imbalance, we do not use synthetic resampling; instead, we apply a class‑management protocol based on fold‑wise class‑weighting, probability calibration, and operating‑point tuning to ensure fair treatment of the minority (default) class without introducing synthetic examples. The approach was evaluated on two UCI benchmark datasets (German and Australian credit) using a fixed train/test split and stratified 10‑fold cross‑validation on the training set for model selection; final models were retrained on the full training set and assessed on a held‑out test set. Results show the stacked ensemble consistently outperforms individual base learners on balanced metrics including F1 and Matthews Correlation Coefficient (MCC) while preserving interpretability via calibrated base‑learner probabilities and inspectable logistic meta‑coefficients. An empirical analysis of Principal Component Analysis (PCA) reveals dataset‑dependent effects: PCA can benefit simpler classifiers but may reduce performance for interaction‑sensitive ensembles. The paper provides a practical deployment blueprint covering class‑management placement, probability calibration before meta‑learning, and cost‑aware evaluation tailored to credit‑risk operations.

Keywords

Main Subjects


Article Title [Persian]

یک چارچوب جدید انباشت چند الگوریتمی برای مدیریت ریسک اعتباری پیشرفته

Authors [Persian]

  • یونس نادمی 1
  • سید محمد حسینی 2
  • مجید ابتیاع 3
  • فرانک احمدی 4
1 گروه اقتصاد، دانشگاه آیت الله بروجردی، بروجرد، ایران.
2 گروه پژوهشی هوش مصنوعی گهر، دانشگاه آیت اله بروجردی، بروجرد، ایران.
3 گروه پژوهشی علوم داده زاگرس، دانشگاه آیت اله بروجردی، بروجرد، ایران.
4 گروه مهندسی کامپیوتر، دانشگاه آیت الله العظمی بروجردی، بروجرد، ایران.
Abstract [Persian]

پیش‌بینی ریسک اعتباری همچنان یکی از چالش‌های محوری مؤسسات مالی است؛ ارزیابی‌های نادرست می‌تواند زیان‌های مالی قابل‌توجه و تضعیف پایداری سیستم مالی را به‌دنبال داشته باشد. در این مطالعه یک چارچوب چند‌سطحی از نوع دنباله(stacking) معرفی شده است که از Gradient Boosting، XGBoost و Random Forest به‌عنوان یادگیرنده‌های پایه و رگرسیون لجستیک به‌عنوان متا‑لرنانر استفاده می‌کند. برای مقابله با عدم‌تعادل کلاسی از بازنمونه‌سازی مصنوعی استفاده نشده و به‌جای آن یک پروتکل مدیریت کلاس شامل وزن‌دهی کلاسی در هر فولد، کالیبراسیون احتمالات و تنظیم نقطه عملیاتی به‌کار گرفته شده تا کلاس اقلیت (نکول) بدون تولید نمونه‌های مصنوعی به‌طور منصفانه پردازش شود. ارزیابی روی دو مجموعه‌داده مرجع UCI (German و Australian credit) انجام شد؛ از تقسیم ثابت آموزش/آزمون استفاده و برای انتخاب مدل از اعتبارسنجی متقاطع طبقه‌بندی شده 10 بخش روی مجموعه آموزش بهره گرفته شد؛ مدل‌های نهایی با پارامترهای انتخاب‌شده روی کل مجموعه آموزش بازآموزی و یک‌بار روی مجموعه آزمون نگهدارنده ارزیابی شدند. نتایج نشان می‌دهد که گروه دنباله‌ای (stacked ensemble) به‌طور مکرر عملکرد بهتری نسبت به یادگیرنده‌های منفرد در معیارهای متوازن مانند F1 و شاخص همبستگی مَتِیوِز (MCC) ارائه می‌دهد و در عین حال قابلیت تبیین را از طریق احتمالات کالیبره‌شده یادگیرنده‌های پایه و ضرایب قابل‌تفسیر رگرسیون لاجستیک حفظ می‌کند. تحلیل تجربی روی تأثیر تحلیل مؤلفه‌های اصلی (PCA) نشان می‌دهد که اثر PCA وابسته به مجموعه‌داده است: در حالی که برای برخی طبقه‌بندهای ساده می‌تواند مفید باشد، برای گروه‌هایی که حساس به تعاملات پیچیده هستند ممکن است کارایی را کاهش دهد. مقاله همچنین چارچوبی عملی برای استقرار ارائه می‌دهد که شامل جایگذاری مدیریت کلاس در جریان مدل‌سازی، کالیبراسیون قبل از متالرنینگ و ارزیابی هزینه‌محور متناسب با عملیات ریسک اعتباری است.

Keywords [Persian]

  • پیش‌بینی ریسک اعتباری
  • یادگیری گروهی
  • گروه انباشته
  • عدم تعادل کلاس
  • رگرسیون لجستیک