توسعه روش طبقه‌بندی دیتاست‌های نامتوازن با استفاده از الگوریتم‌های تکاملی چندهدفه

نوع مقاله: مقاله پژوهشی

نویسندگان

1 مدیریت صنعتی، دانشکده مدیریت، واحد الکترونیکی، دانشگاه آزاد اسلامی، تهران، ایران

2 گروه مدیریت صنعتی، دانشکده مدیریت و حسابداری، واحد رشت، دانشگاه آزاد اسلامی، رشت، ایران

3 گروه مدیریت صنعتی، دانشکده مدیریت، واحد الکترونیکی، دانشگاه آزاد اسلامی، تهران، ایران

چکیده

طبقه‌بندی داده‌ها از مباحث اساسی علم مدیریت است که از رویکردهای مختلفی مورد بررسی قرار گرفته است. روش‌های هوش مصنوعی از مهمترین روش‌های طبقه‌بندی هستند که اغلب آنها تابع دقت کل را در ارزیابی عملکرد مد نظر قرار می‌دهند. از آنجاییکه در دیتاست‌های نامتوازن، این تابع، هزینه‌ خطاهای پیش‌بینی را یکسان در نظر می‌گیرد، در این پژوهش علاوه بر تابع دقت کل، از تابع حساسیت نیز به منظور افزایش دقت در هر یک از کلاس‌های از پیش‌تعریف‌شده، استفاده شده است. به‌علاوه، بدلیل پیچیدگی فرآیند کسب اطلاعات از تصمیم‌گیرنده، از الگوریتم فرا ابتکاری NSGA II جهت استنتاج مقادیر پارامترها، (بردار وزن و سطوح برش بین کلاس‌ها) استفاده گردیده است. در هر تکرار، الگوریتم با استفاده از بردار وزن برآورد شده و دیتاست‌ها، امتیاز هر آلترناتیو را با تابع Sum Product محاسبه نموده و در مقایسه با سطوح برش تخمینی، آن آلترناتیو را به یکی از دسته‌ها تخصیص می‌دهد. سپس با استفاده از توابع برازش، دسته تخمینی و دسته واقعی را مقایسه نموده و این فرایند تا بهینه‌سازی پارامترها ادامه می‌یابد. مقایسه نتایج الگوریتم‌های NSGA II و NRGA، نشان‌دهنده کارایی بالای الگوریتم ارائه شده است.

کلیدواژه‌ها


عنوان مقاله [English]

Developing a classification Method for Imbalanced Dataset Using Multi-Objective Evolutionary Algorithms

نویسندگان [English]

  • amir daneshvar 1
  • Mahdi Homayounfar 2
  • elham akhavan 3
1 Department of Industrial Management, Management Faculty, E-branch, Islamic Azad University,Tehran, Iran
2 Department of Industrial Management, Faculty of Management and Accounting, Rasht Branch, Islamic Azad University, Rasht, Iran
3 Department of Industrial Management, Management Faculty, E-branch, Islamic Azad University,Tehran, Iran
چکیده [English]

Data classification is one of the main issues in management science which took into account from different approaches. Artificial intelligence methods are among the most important classification methods, most of them consider total accuracy function in performance evaluation. Since in imbalanced data sets this function considers the cost of prediction errors as a fix amount, in this research a sensitivity function in used in addition to the accuracy function in order to increase the accuracy in all of the predefined classes. In addition, due to complexity in process of seeking information from decision maker, NSGA II algorithm is used to extract the parameters (Weight vector and cut levels between classes). In each iteration, based on the estimated weight vector and data sets, the algorithm calculate the score of each alternative using Sum Product function and then allocates the alternative to one of the classes, comparing to the estimated cut levels,. Then, using the fitness functions, the estimation class and the actual class will compare by two algorithms and this process will continue since optimizing the parameters. Comparison of the NSGA II and NRGA algorithms show the high efficiency of the proposed algorithm.

کلیدواژه‌ها [English]

  • : NSGA II Algorithm
  • Multiclass Classification
  • imbalanced datasets
  • NRGA Algorithm
دانشور، ا.، زندیه، م.، ناظمی، ج. (1394). یک روش تکاملی برای طبقه­بندی اعتباری مبتنی بر رویکرد تجمیع زدایی ترجیحات. مطالعات مدیریت صنعتی، شماره 39، صفحات 1-34.

زرین صدف، م.، دانشور، ا. (1395). روش کارای یادگیری ترجیحات مبتنی بر مدل ELECTRE TRI به‎منظور طبقه‌بندی چندمعیارۀ موجودی. مدیریت صنعتی، دوره 8، شماره 2، صفحات 191-216.

عظیمی، پ.، گلدار، ف.، مهدی­زاده، ا. (1394). ارائه مدلی ترکیبی برای انتخاب تامین کنندگان مبتنی بر رویکرد خوشه­بندی و حل آن با استفاده از الگوریتم­های NRGA و NSGA-II. مطالعات مدیریت صنعتی، شماره 36، صفحات 115-142.

محتشمی، ع. (1393). یک روش تلفیقی جدید جهت تخصیص افزونگی در سیستم‌های تولیدی با استفاده از NSGA-II و MOPSO اصلاح شده. مطالعات مدیریت صنعتی، شماره 3، صفحات 97-124.

        

Abdou, H. A. (2009). Genetic programming for credit scoring: The case of Egyptian public sector banks. Expert Systems with Applications, 36 (9), 11402–11417.

Al Jadaan, O., Rajamani, L., Rao, C. R. (2008). Non-Dominated Ranked Genetic Algorithm for Solving Multi-Objrctive Optimisation Problems: NRGA. Journal of Theoretical and Applied Information Technology, 60-67.

Barandela, R., Sanchez, J. S., Garcia, V., Rangel, E. (2003). Strategies for learning in class imbalance problems. Pattern Recognition, 36, 849–851.

Carbonero-Ruz, M., Martínez-Estudillo, F. J., Fernández-Navarro, F., Becerra-Alonso, D., Martínez-Estudillo, A. C. (2017). A two dimensional accuracy-based measure for classification performance. Information Sciences, 382, 60-80.

Chen, M. C., Chen, L. S., Hsu, C. C., Zeng, W. R. (2008). An information granulation based data mining approach for classifying imbalanced data. Information Sciences, 178 (16), 3214-3227.

Deb, K., Pratap, A., Agarwal, S., Meyarivan, T. A. M. T. (2002). A Fast and Elitist Multi-objective Genetic Algorithm: NSGA-II Kalyanmoy. IEEE TRANSACTIONS ON EVOLUTIONARY COMPUTATION, 6 (2), 182-197.

Hollander, M., Wolfe, D.A. (1973). Non-parametric Statistical Methods. John Wiley & Sons.

Kaabi, H., Jabeur, K., Enneifar, L. (2015). Learning criteria weights with TOPSIS method and continuous VNS for multi-criteria inventory classification. Electronic Notes in Discrete Mathematics, 47, 197-204.

Karimi, N., Zandieh, M., Karamooz, H. R., (2010). Bi-objective group scheduling in hybrid flexible flow shop: A multi-phase approach. Expert Systems with Applications, 37, 4024-4032.

Michalewiez, Z., (1995). A survey of constraint handling techniques in evolutionary computation methods. Evolutionary programming IV, MIT Press, Cambridge, MA, 98-108.

Marqués, A. I., García, V., Sánchez, J. S. (2012). Exploring the behavior of base classifiers in credit scoring ensembles. Expert Systems with Applications, 39, 10244-10250.

Mukerjee, A., Biswas, R., Deb, K. Mathur, A. (2002). Multi-objectiveevolutionary algorithms for the risk-return trade-off inbank loan management. International Transactions in Operational Researchو 9(5), 583-597.

Provost, F., Fawcett, T. (1997). Analysis and visualization of classifier performance: Comparison under imprecise class and cost distributions. Proceeding of the Third International Conference on Knowledge Discovery and DataMining (KDD-97). Newport beach, CA, 43-48.

Gutiérrez, P. A., Hervás-Martínez, C., Martínez-Estudillo, F. J., Carbonerob, M. (2012). A two-stage evolutionary algorithm based on sensitivity and accuracy for multi-class problems. Information Sciences, 197, 20-37.

Nikam, S. S. (2015). A Comparative Study of Classification Techniques in Data  Mining Algorithms. Computer Science and Technology, 8 (1), 13-19.

Rout, N., Mishra, D., Mallick, M. K. )2018). Handling Imbalanced Data: A Survey. International Proceedings on Advances in Soft Computing, Intelligent Systems and Applications, 431-443.

Srinivas, N., Deb, K. (2000). Multi-Objective function optimization using non-dominated sorting genetic algorithms. Evolutionary Computation, 2 (3), 221-248.

Schott, J. R. (1995). Fault tolerant design using single and multi-criteria genetic algorithms optimization. Master thesis, Department of Aeronautics and Astronautics, Massachusetts Institute of Technology, Cambridge.

You, Z. H., Lei, Y. K., Zhu, L., Xia, J., Wang, B. (2013). Prediction of protein-protein interactions from amino acid sequences with ensemble extreme learning machines and principal components analysis. BMC Bioinformatics, 14 (8), xx-xx.

Zitzler, E. (1999). Evolutionary Algorithms for Multi-objective Optimization: Methodsand Applications. Ph. D Dissertation, Swiss Federal Institute of Technology (ETH).

Zhou, Z. H., Liu, X. Y. (2006). Training cost-sensitive neural networks with methods addressing the class imbalance problem. IEEE Transactions on Knowledge and Data Engineering, 18, 63–77.