Text – Conditioned Image Generation using Diffusion Models

ساره فائز عبدالغني علوم الحاسوب

الخلاصة

قد حقق توليد الصور المدعوم بالنص قفزة هائلة نحو أن يصبح ظاهرة سائدة. مع أنظمة تحويل النص إلى صورة، يمكن لأي شخص إنشاء صور رقمية وأعمال فنية وهذا يثير مسألة ما إذا كان توليد النص إلى صورة هو عملاً إبداعيًا.
لقد ساهمت الأنظمة التوليدية كثيرًا في تطوير الذكاء الاصطناعي من خلال توليد صور واقعية إلى حد ما من النص.
تم استخدام أنظمة توليد الصور بأستخدام النص في أشكال ومجالات مختلفة في النطاق بما في ذلك ، على سبيل المثال لا الحصر ، الأعمال الفنية والتصاميم وأخذ عينات البيانات والترفيه. تم إجراء العديد من الدراسات حول توليد الصور من النص حيث تم اقتراح العديد من تقنيات الذكاء الاصطناعي. ومع ذلك، لا تزال بعض القضايا الحرجة بحاجة إلى الحل، خاصة فيما يتعلق باستهلاك الوقت ووقت التدريب. لذلك، استخدمت الدراسة المقترحة نموذج الانتشار المستقر (SDM) لإجراء تغذية راجعة تكرارية (إذا لم تتحسن مقاييس التقييم وهي درجة البداية (IS) والمسافة الابتدائية فريشيت (FID) يتم ضبط المعلمات الفائقة وتدريب النموذج مرة أخرى). في هذه الدراسة، يؤدي ضبط نموذج SDM إلى تحسين كبير في توليد الصور التي تشبه الواقع بشكل أكبر. وكذلك، هناك تنازلات بين جودة الصورة ومرونة مقاييس الأداء. تعمل عملية الضبط الدقيق على تحسين القدرة العالمية للنموذج تدريجياً على إنتاج صور رقمية أفضل وأكثر تنوعاً. النموذج الذي تم ضبطه بدقة لديه درجة FID أقل (248.748256)، مما يشير إلى احتمال أكبر لتحقيق تشابه أعلى في توزيع الصور مع مجموعة البيانات المستهدفة. بشكل متقطع، أظهرت نتائج النموذج المحسن درجة FID أقل (212.52) عند مقارنتها بالنموذج الأساسي (251.22)، مما يشير إلى أن الصور المولدة من النموذج المعدل كانت أقرب إلى التوزيع المستهدف في مجموعة البيانات الاصطناعية.