سبأ حامد رشيد | علوم الحاسوب |
الخلاصة
في العصر الرقمي، يُعَدّ حماية المعلومات السرية من الوصول غير المصرح به أمرًا بالغ الأهمية. المعلومات يمكن أن تُعبر عنها بوسائل اتصال متعددة مثل النصوص، والصوت، والفيديو، والصور، مع كون النصوص الأكثر شيوعًا. تهدف تقنية الإخفاء (Steganography) إلى إخفاء المعلومات بحيث لا يلاحظها الآخرون، من خلال إدراجها في وسط ناقل آخر. يختلف هذا الأسلوب عن تقنيات تبادل المعلومات السرية الأخرى مثل التشفير، حيث يمكن اكتشاف وجود المعلومات المُشفّرة لكن يصعب فهمها. أما في الإخفاء، فلا يمكن لأحد أن يعرف أن البيانات موجودة أصلاً داخل المصدر.
من التحديات التي تواجه طريقة الإخفاء النصي بدون غطاء تقليدي هي انخفاض السعة العالية، وارتفاع مستوى التعقيد (perplexity)، وغياب التطبيقات باللغة العربية. بالمقابل، لا يتطلب الإخفاء النصي بدون غطاء تعديل الوسيط الناقل بل ينقل المعلومات المخفية مباشرة عبر ميزات داخلية في النص.
تهدف هذه الأطروحة إلى تحسين تقنيات الإخفاء النصي بدون غطاء من حيث سعة الإخفاء، نسبة النجاح، دقة الاستخراج، تحليل الأمان، توفر وفعالية الخوارزمية. وكذلك، توسيع تطبيقات هذه التقنيات لتشمل اللغة العربية من خلال الاستفادة من النموذج الإحصائي للغة العربية والميزات اللغوية التي يمكن استخدامها لإخفاء المعلومات.
تُقدَّم في هذه الأطروحة طريقتان جديدتان للإخفاء النصي بدون غطاء؛ الأولى تعتمد على نموذج إحصائي للغة العربية باستخدام سلاسل ماركوف من الدرجة الأولى، والثانية تعتمد على ميزات مدمجة في اللغة العربية.
تم استخدام ثلاث مجموعات بيانات عربية في هذه الأطروحة: مجموعة بيانات أخبار عربية تحتوي على 45,500 مقال، مجموعة شاملة من الشعر العربي تحتوي على 1,831,770 بيت شعر، ومجموعة بيانات شعرية تحتوي على أكثر من 58,000 قصيدة.
تستخدم الطريقة الأولى سلاسل ماركوف من الدرجة الأولى لتوليد نصوص مخفية دون الحاجة إلى وسيلة نقل خارجية. تم اختيار مجموعة من النصوص العربية وإنشاء مخطط انتقال يعتمد على تكرار الكلمات. يُستخدم رمز معين لتمثيل الانتقالات في المخطط، مما يسمح بتوليد نص يخفي المعلومات. أظهرت هذه الطريقة تحسنًا في سعة الإخفاء حيث وصلت إلى 5.5، وانخفاضًا في التعقيد ليصل إلى 18.51، مما يشير إلى فعالية الطريقة في إخفاء المعلومات.
أما الطريقة الثانية تركز على الكلمة الأولى في كل صف من مجموعة بيانات بناءً على ثمانية ميزات محددة—الهمزة، التشكيل، الحروف المنفصلة، الحروف ذات الحافتين الحادتين، الحركات، النقط، الحروف ذات الحلقة، والتكرار العالي—لتوليد قيمة بايت (1 أو 0) بناءً على وجود أو غياب هذه الميزات. يتم بعد ذلك تحويل هذه القيمة إلى عدد عشري (كود ASCII) لإنشاء بروتوكول ترميز ديناميكي مع الحرف الأكثر تكرارًا. حققت هذه الطريقة معدل دقة عالي جدًا بنسبة 100%، مما يعكس دقتها في تضمين واسترجاع المعلومات المخفية دون تغيير في البنية اللغوية للنص. علاوة على ذلك، حققت الطريقة أيضًا معدل نجاح بنسبة 100%، مما يبرز موثوقيتها في إخفاء وكشف المعلومات المضمنة بنجاح. ومع ذلك، فإن القدرة على الإخفاء باستخدام هذه الطريقة بلغت 0.246، مما يعكس التوازن بين الحفاظ على سلامة النص اللغوية وكمية المعلومات التي يمكن إخفاؤها.