🚀 أسقط فريق Qwen من Alibaba Qwen-Image ، وهو نموذج MMDiT 20B-param يحدث ثورة في الجيل من النص إلى صورة! عرض نص أصلي داخل البكسل للملصقات المذهلة ، ودعم EN / CN ثنائي اللغة ، يتفوق في الأنماط الواقعية / الأنيمي / الأنماط. تعمق في مقالتنا الفنية مع الدليل الكامل لنشر النموذج على Hyperbolic & Gradio
الهندسة المعمارية: يجمع بين MLLM (Qwen2.5-VL 7B للدلالات) ، VAE (تم ضبطه بدقة للاستطلاع الغني بالنصوص) ، و 20B MMDiT (مطابقة التدفق مع ODEs ، concat قطري للدقة القابلة للتطوير). العملية: مآثر → الفورية → تقليل الضوضاء → فك التشفير. TI2I مع ترميز مزدوج للتعديلات.
الابتكارات: خط أنابيب البيانات الضخم (مليارات الأزواج: الطبيعة 55٪ ، التصميم 27٪ ، الناس 13٪ ، الاصطناعية 5٪. EN / CN تقسيمات). تعلم المناهج لإتقان النص. MSRoPE (على RoPE) لمحاذاة 2D. T2I / TI2I / I2I متعدد المهام. SOTA على GenEval ، مقاعد نصية!
مقابل GPT-Image-1: يتطابق مع الواقعية ، ويسحق النص ثنائي اللغة / متعدد الأسطر ، واتساق التحرير (دقة أفضل في الكائنات / الوضعيات). هذه هي حافة المصدر المفتوح مقابل واجهة برمجة التطبيقات!
الأشعة تحت الحمراء لوحدة معالجة الرسومات: ~ 24 جيجابايت VRAM (20 مليار × 1.2 في BF16). يعمل الاستدلال بسلاسة على H100 واحد. اختبرنا على Hyperbolic's On-Demand Cloud H100 مقابل 1.49 دولارا في الساعة ، باستخدام برنامج نصي بسيط بلغة python مقتبس من بطاقة الطراز الرسمية لواجهة مستخدم Gradio التفاعلية
اقرأ مقالتنا كاملا: تفاصيل الهندسة المعمارية ، والابتكارات ، والمقارنة ، وتحليل الحوسبة ، وكود كامل ونشر الخطوات على Gradio. قم بتشغيل Qwen-Image بنفسك وشارك إبداعات الصور الخاصة بك معنا! اقرأ المدونة كاملة: استأجر H100s الآن على Hyperbolic مقابل 1.49 دولار في الساعة:
اقرأ مقالتنا كاملا: تفاصيل الهندسة المعمارية ، والابتكارات ، والمقارنة ، وتحليل الحوسبة ، وكود كامل ونشر الخطوات على Gradio. قم بتشغيل Qwen-Image بنفسك وشارك إبداعات الصور الخاصة بك معنا! اقرأ المدونة كاملة: استأجر H100s الآن على Hyperbolic مقابل 1.49 دولار في الساعة:
‏‎7.93‏K