Recommendation System Based On Opinion Mining using Machine Learning Techniques

آمنة ناهض عبد الامير محمد علوم الحاسوب

الخلاصة

لقد أتاح الإنترنت والويب إمكانية مشاركة كمية هائلة من المعلومات والوصول إليها من قبل أعداد كبيرة من الأشخاص. وقد أدى هذا إلى مشكلة تسمى الحمل الزائد للمعلومات (information overload) و هو التحدي المتمثل في اتخاذ القرارات عند مواجهة الكثير من المعلومات. استلزمت هذه المشكلة إنشاء أنظمة توصية تعالج تحدي الحمل الزائد للمعلومات من خلال اقتراح منتجات أو خدمات قد تكون مفيدة للمستخدمين ومصالحهم.
قد تواجه أنظمة التوصية عدة مشاكل منها التشتت (Sparsity) والبداية الباردة (Cold-start). تؤدي هذه المشكلات إلى انخفاض أداء نظام التوصية.
في هذا العمل، تم اقتراح نظام التوصية القائم على المراجعات النصية وباستخدام طريقة التعلم العميق (RS-TRDL) لأداء مهمتين رئيسيتين: المهمة الأولى هي تخفيف مشكلة (user cold-start) والمهمة الثانية هي تخفيف مشكلة (Sparsity) وتعزيز أداء النموذج المقترح. تم استخدام المراجعات النصية كمعلومات إضافية إلى جانب التقييمات الرقمية للمستخدمين. وتم استخلاص جوانب مهمة من هذه المراجعات، بالإضافة إلى قطبية المشاعر باستخدام إحدى خوارزميات التعلم العميق وهي خوارزمية الذاكرة طويلة المدى (LSTM)، للاستفادة من هذه الجوانب في عملية التوصية.
في نموذج RS-TRDL، تم إجراء المعالجة المسبقة على مجموعة البيانات وتضمنت هذه المرحلة خطوات مختلفة، بما في ذلك التعامل مع القيم المفقودة وتصنيف البيانات. بالإضافة إلى ذلك، قام بدمج عمليات المعالجة المسبقة الخاصة بالنص مثل تنظيف النص والمعالجة المسبقة العامة للنص، ثم انتقل بعد ذلك إلى استخراج الجوانب. استخدمت هذه الخطوة spaCy لاستخراج الأسماء عبر وضع علامات على جزء من الكلام (POS). بالإضافة إلى ذلك، تم إجراء نمذجة الموضوع باستخدام خوارزمية BERTopic. وأخيرًا، تم إجراء تحليل المشاعر باستخدام خوارزمية الذاكرة طويلة المدى (LSTM).
بعد استخراج الجوانب، تمت معاملة مستخدمي البداية الباردة ومستخدمي البداية غير الباردة بشكل منفصل. بالنسبة لمستخدمي البداية الباردة، تم إجراء عملية التنبؤ بالتقييم باستخدام خوارزمية K-Nearest Neighbors (KNN) استنادًا إلى تقييمات المستخدمين غير المبتدئين الذين يتشاركون نفس الجوانب من نفس العناصر ولديهم قيمة مساعدة (helpfulness) عالية.
بالنسبة للمستخدمين غير الباردين، تمت عملية التجميع أولاً بناءً على الجوانب المستخرجة من مراجعات المستخدمين، ثم تم إنشاء مصفوفة تشابه لكل مجموعة باستخدام مقياس تشابه جيب التمام. وأخيرًا، تم إجراء عملية التنبؤ بالتقييم باستخدام KNN استنادًا إلى تقييمات أقرب المستخدمين المنتمين إلى نفس المجموعة والتي تتمتع بقيمة مساعدة (helpfulness) عالية.

تم إجراء تجارب واسعة النطاق بواسطة النظام المقترح على مجموعتي بيانات أمازون: Amazon Electronics وAmazon Fine Food. تظهر النتائج التجريبية أن نموذج RS-TRDL الخاص بنا قد تجاوز جميع طرق المقارنة مع البحوث التي تمت مراجعتها في عملية التنبؤ بالتقييم لكلا المهمتين الذي تم تصميمه لأداءها. تجدر الإشارة إلى الأداء المتسق للنموذج عبر كلا المهمتين، كما يتضح من نطاق التحسين الذي يتراوح بين 0.24% إلى 34.32% لتخفيف مهمة مشكلة البداية الباردة للمستخدم ومن 3.21% إلى 58.7% لتخفيف مشكلة التناثر وتعزيز مهمة نموذج الموصي. دعمت هذه التجارب فكرة أن دمج أنظمة التوصية وتحليل المشاعر سيكون له مزايا كبيرة.