งานวิจัยนี้นำเสนอวิธีการเรียนรู้ของเครื่องสำหรับการทำนายระดับความยากจนในครัวเรือนโดยอาศัยการผสมผสานระหว่างกระบวนการปรับแต่งคุณลักษณะเฉพาะของข้อมูล (Feature Engineering) , เทคนิคการสุ่มเพิ่มตัวอย่างกลุ่มน้อย (Synthetic Minority Over-sampling Technique) และการใช้โมเดลการเรียนรู้ของเครื่องจักรแบบต้นไม้ในการวิเคราะห์ข้อมูลสำมะโนประชากร
งานวิจัยนี้ทดสอบประสิทธิภาพของแบบจำลองที่นำเสนอผ่านข้อมูลสำมะโนประชากรจากประเทศคอสตาริกา โดยนำเสนอการใช้กระบวนการปรับแต่งคุณลักษณะเฉพาะของข้อมูลเพื่อสร้างคุณลักษณะเฉพาะประจำครัวเรือน โดยแก้ปัญหาความไม่สมดุลของข้อมูลสำมะโนประชากรโดยใช้วิธีการสุ่มเพิ่มตัวอย่างแบบกลุ่มน้อย จากนั้นทำการปรับไฮเปอร์พารามิเตอร์ (hyperparameter) ของแต่ละแบบจำลองเพื่อเพิ่มประสิทธิภาพของโมเดลในการทำนายความยากจน จากผลการทดลองพบว่าโมเดลการเรียนรู้ของเครื่องจักรแบบต้นไม้ชนิด Gradient Boosting มีประสิทธิภาพดีที่สุดในการทำนายความยากจนในระดับครัวเรือนโดยให้ค่าความถูกต้อง (Accuracy) เท่ากับ 67.6% ความแม่นยำ (Precision) เท่ากับ 0.46 และคะแนนมาโคร F1 (macro F1) เฉลี่ยเท่ากับ 0.43 ซึ่งมีค่าสูงกว่าโมเดลมาตรฐาน (baseline) ซึ่งใช้โมเดลแบบป่าสุ่ม (Random Forest) ซึ่งได้คะแนนมาโคร F1 เฉลี่ยเท่ากับ 0.32 โดยโมเดลที่นำเสนอนี้ระบุคุณสมบัติที่สำคัญที่สุดสามประการที่มีผลต่อประสิทธิภาพของแบบจำลองอันประกอบไปด้วย จำนวนปีในสถานศึกษา คุณภาพของหลังคา และอัตราส่วนของสมาชิกในบ้านที่ต้องพึ่งพาต่อสมาชิกในบ้านที่ต้องทำงานที่มีค่าความสำคัญ (feature importance) เท่ากับ 0.0286, 0.0267 และ 0.0206 ตามลำดับ จากการทดลองพบว่าเทคนิคการสุ่มเพิ่มตัวอย่างกลุ่มน้อยมีส่วนช่วยในการเพิ่มประสิทธิภาพของโมเดลในการระบุความยากจน การทำงานในอนาคตจะมุ่งเน้นไปที่การปรับไฮเปอร์พารามิเตอร์เพื่อปรับปรุงประสิทธิภาพของโมเดล
In this paper, we propose a machine learning method for household poverty level prediction based on a combination of feature engineering, Synthetic Minority Over-sampling Technique (SMOTE) and tree-based classification models.
We test the performance of our proposed system over census data from Costa Rica. A feature engineering method is applied to construct a group feature of the household. Then, after applying SMOTE, hyperparameter tuning of each classification model is implemented. Our proposed model employing gradient boosting classifier yields the best accuracy equal to 67.6% with precision equal to 0.46 and macro F1 score equal to 0.43. Three most important features contributing to the performance of the proposed model are roof quality of the house, years of education and Ratio of non-working age to working age whose values are equal to 0.0286, 0.0267 and 0.0206, respectively. Our performance is superior to the baseline model using random forest whose F1 score is equal to 0.32. Performance enhancement is partly due to SMOTE which randomly resamples minority data classes to improve the classification performance of the proposed model. Future work will focus on hyperparameter tuning to improve the performance of the model.