علي عباس علي ابو العوب | علوم الحاسوب |
الخلاصة
تعد النصوص القديمة مهمة لأنها تربطنا بالحضارات القديمة، والتي من خلالها نكتسب المعرفة الثقافية والدينية والعلمية. غالبًا ما تكون النصوص القديمة، سواء كانت مكتوبة على ورق البردي أو البرشمان أو غيرها، ناقصة أو متآكلة جزئيًا بسبب مرور الزمن. تمثل استعادة هذه النصوص تحديًا كبيرًا للمؤرخين والعلماء، مما يتطلب جهدًا وخبرة يدوية دقيقة.
استعادة النص القديم هو فرع متخصص من علم استعادة النصوص يركز على استعادة المحتوى النصي من الوثائق التاريخية أو القديمة والحفاظ عليه.
تعتمد طرق الاستعادة التقليدية بشكل كبير على التدخل اليدوي من قبل الخبراء، وهو أمر يستغرق وقتًا طويلاً وغالبًا ما يكون صعبا. في السنوات الأخيرة، أظهرت تقنيات التعلم الآلي (ML) والذكاء الاصطناعي (AI) نتائج واعدة في تكملة عملية الاستعادة وتحسينها.
أظهرت تقنيات التعلم العميق نجاحًا ملحوظًا في مجالات مختلفة، بما في ذلك معالجة الصور ومعالجة اللغات الطبيعية. في هذه الرسالة تم اقتراح نماذج مختلفة لترميم النصوص القديمة باستخدام الشبكات العصبية العميقة.
تم استخدام مجموعتي بيانات لتدريب واختبار النماذج، مجموعة البيانات الأولى هي “المخطوطة السينائية” وهي مخطوطة يعود تاريخها إلى القرن الرابع، وهي قطعة أثرية مهمة لأنها توفر أقدم نسخة كاملة موجودة من العهد الجديد في الكتاب المقدس المسيحي. المادة المكتوبة بخط اليد مكتوبة باللغة اليونانية.
مجموعة البيانات الثانية هي “Argonautica 3” والتي تشير إلى قصيدة ملحمية كتبها الشاعر اليوناني القديم أبولونيوس الرودسي في القرن الثالث قبل الميلاد وهي مكتوبة باللغة اليونانية أيضًا.
تم معالجة البيانات مسبقًا عن طريق ترميز البيانات ثم إزالة الخطوط والأرقام والرموز والأحرف الخاصة. بعد ذلك، تم تقطيع النص الناتج، وإنشاء حرف مفقود وتسمية الفئات، وإجراء تضخيم البيانات لتعزيزها، وثم جعلها متساوية الطول.
تم استخدام ثلاثة نماذج للتنبؤ كنماذج مقترحة لاستعادة النصوص القديمة المفقودة، وهي الذاكرة الطويلة المدى (LSTM)، والشبكات العصبية المتكررة (RNN)، والشبكات الخصومة التوليدية (GAN) وكانت النتائج اختبار الدقة 86%، 92% و98.3 % وفقًا لمجموعة البيانات الأولى و94% و88% و98.7% وفقًا لمجموعة البيانات الثانية على التوالي.
وبمقارنة أداء كل نموذج، أعطى GAN أفضل النتائج من حيث الدقة، وبالتالي أثبت فعاليته في مجال استعادة النص المفقود. كما تمت مقارنة نتائج النظام المقترح مع تقنيات الاستعادة الأخرى، حيث أظهرت النتائج أن التقنية المقترحة حققت نتائج دقة أعلى من غيرها.
بشكل عام، يساهم هذا العمل في دمج العلوم المختلفة مثل دمج التعلم العصبي العميق مع العلوم الإنسانية الرقمية، مما يوفر حلاً واعدًا لترميم القطع الأثرية النصية القديمة والحفاظ عليها.