Gender Classification Based on Linguistic Style Analysis Using Combine Machine Learning and Deep Learning Techniques

حنين تاميم عبدعلي هاشم علوم الحاسوب

الخلاصة

إن الكم الهائل من البيانات النصية المتاحة في جميع أنحاء العالم، بما في ذلك المقالات ومحتوى وسائل التواصل الاجتماعي، قد أعطى أهمية لمنصات الوسائط مثل تويتر لاستخدام هذه البيانات ضمن تصنيف الجنس. هذا موضوع مثير للاهتمام للعديد من التطبيقات العملية مثل التسويق وأنظمة التوصية والجرائم الإلكترونية. يشير تصنيف الجنس في النص إلى عملية تصنيف الأفراد إلى أحد الجنسين، ذكر أو أنثى، بناءً على الخصائص اللغوية الملحوظة عادةً.
اكتسبت معالجة اللغة الطبيعية (NLP) شعبية في مجال التعلم الآلي. تطبق تقنيات معالجة اللغة الطبيعية (NLP) تصنيف الجنس تلقائيًا باستخدام السمات اللغوية والأسلوبية. يؤدي هذا إلى مشاركة أكبر ورضا، وتحسين دعم العملاء، وتقديم محتوى مخصص. الطبيعة الديناميكية والمفردات الضخمة للغة تجعل من الصعب تحديد جنس المؤلف بناءً على الأسلوب اللغوي، وقد كان هذا تحديًا للأطروحة، في حين أن طريقة استخراج الميزات المقترحة لها أهمية كبيرة في التغلب على هذه المشكلة وخلق تمييز دقيق بين الذكور والإناث.
الهدف من هذه الأطروحة هو تحسين دقة تصنيف الجنس بناءً على أسلوبه اللغوي في مجموعة بيانات المجال العام ومجموعة بيانات المجال المحدد. ولتحقيق هذا الهدف، تم استخراج الفروق النصية بين الجنسين باستخدام تشابه النص لتحسين تصنيف الجنس وتم تطبيق ثلاثة نماذج. تم تطبيق النموذج الأول من خلال ثلاث مصنفات للتعلم الآلي وهي الغابة العشوائية (RF) والانحدار اللوجستي (LR) وآلة المتجهات الداعمة (SVM) للحصول على تسميات الجنس واحتمالات التنبؤ الخاصة بها. وتم تطبيق النموذج الثاني من خلال الهياكل الناجحة المستخدمة مسبقًا لنماذج CNN للحصول على تسميات الجنس واحتمالاتها. أخيرًا، تم استخدام آلية التركيبة الخطية من خلال الجمع بين الأوزان الإضافية ونتائج احتمالية التسمية للنموذجين السابقين لحساب احتمالية التنبؤ النهائية.
تم الحصول على أعلى نتائج دقة لمجموعتي البيانات (Twitter وTripAdvisor). حقق نموذج التعلم الآلي 87.8٪ على Twitter، بينما حقق 75.1٪ على TripAdvisor. حصل نموذج التعلم العميق على 89.1٪ على Twitter و76.3٪ على TripAdvisor. أخيرًا، حقق نموذج التركيبة الخطية (89.6٪، 77٪) على Twitter وTripAdvisor على التوالي.
كان استخدام تقنية استخراج الميزات المقترحة أمرًا بالغ الأهمية في تحقيق نتائج متفوقة مقارنة بالأبحاث السابقة. بالإضافة إلى ذلك، فإن حقيقة أن مفردات مجموعة البيانات العامة لنطاق Twitter أكثر تنوعًا ساعدتنا على التفوق على TripAdvisor، وهي مجموعة بيانات نطاق محدد ذات دقة أقل بسبب لغتها المرتبطة فقط بالفنادق والمطاعم. من أجل تحقيق أقصى قدر ممكن من الدقة، كان استخدام استراتيجية التركيبة الخطية باستخدام التعلم العميق والتعلم الآلي مهمًا للغاية.