المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
يستخدم عمالقة التكنولوجيا Multimodal RAG كل يوم في الإنتاج!
- يستخدمه Spotify للإجابة على استفسارات الموسيقى
- يستخدمه YouTube لتحويل المطالبات إلى مسارات
- تستخدمه Amazon Music لإنشاء قائمة تشغيل من المطالبة
دعنا نتعلم كيفية إنشاء RAG متعدد الوسائط (مع التعليمات البرمجية):
اليوم ، سنقوم ببناء Agentic RAG متعدد الوسائط يمكنه الاستعلام عن المستندات والملفات الصوتية باستخدام خطاب المستخدم.
مكدس التكنولوجيا:
- @AssemblyAI للنسخ.
- @milvusio كمتجه DB.
- @beam_cloud للنشر.
- تدفقات @crewAIInc للتنسيق.
دعونا نبنيها!
إليك سير العمل:
- يقوم المستخدم بإدخال البيانات (الصوت + المستندات).
- يقوم AssemblyAI بنسخ الملفات الصوتية.
- يتم تضمين النص والمستندات المكتوبة في قاعدة بيانات متجه Milvus.
- يسترد عامل البحث المعلومات من استعلام المستخدم.
- يستخدمه عامل الاستجابة لصياغة استجابة.
تحقق من هذا👇
1️⃣ استيعاب البيانات
للبدء ، يوفر المستخدم بيانات إدخال النص والصوت في دليل البيانات.
ينفذ CrewAI Flow المنطق لاكتشاف الملفات وتجهيزها لمزيد من المعالجة.
تحقق من هذا👇

2️⃣ نسخ الصوت
بعد ذلك ، نقوم بنسخ الإدخال الصوتي للمستخدم باستخدام منصة تحويل الكلام إلى نص من AssemblyAI.
AssemblyAI ليس مفتوح المصدر ، ولكنه يمنح أرصدة مجانية وافرة لاستخدام نماذج نسخ SOTA الخاصة بهم ، والتي تعد أكثر من كافية لهذا العرض التوضيحي.
تحقق من هذا👇

3️⃣ تضمين بيانات الإدخال
للمضي قدما ، يتم تضمين بيانات الإدخال المكتوبة من الخطوة أعلاه وبيانات نص الإدخال وتخزينها في قاعدة بيانات متجه Milvus.
إليك كيف نفعل ذلك 👇

4️⃣ استعلام المستخدم
انتهى الابتلاع.
الآن ننتقل إلى مرحلة الاستدلال!
بعد ذلك ، يقوم المستخدم بإدخال استعلام صوتي ، يتم نسخه بواسطة AssemblyAI.
تحقق من هذا👇

5️⃣ استرداد السياق
بعد ذلك ، نقوم بإنشاء تضمين للاستعلام وسحب الأجزاء الأكثر صلة من قاعدة بيانات متجه Milvus.
هذه هي الطريقة التي نفعل بها ذلك 👇

6️⃣ توليد إجابة
بمجرد حصولنا على السياق ذي الصلة ، يتم استدعاء طاقمنا لإنشاء استجابة واضحة ومقتبسة للمستخدم.
تحقق من هذا 👇

أخيرا ، نقوم بتجميع كل شيء في واجهة Streamlit نظيفة ونشر التطبيق في حاوية بلا خادم باستخدام Beam.
نقوم باستيراد تبعيات Python الضرورية وتحديد مواصفات الحوسبة للحاوية.
ثم ننشر التطبيق في بضعة أسطر من التعليمات البرمجية👇

بمجرد النشر، نحصل على نشر خاص بنسبة 100٪ لسير عمل عامل RAG متعدد الوسائط الذي أنشأناه للتو.
تحقق من هذا العرض التوضيحي 👇
إليك سير العمل الذي قمنا بتنفيذه:
- أعطى المستخدم بيانات (صوت + مستندات)
- قامت AssemblyAI بنسخ الملفات الصوتية
- البيانات المكتوبة مضمنة في متجه DB
- استرجع وكيل البحث المعلومات من استعلام المستخدم
- استخدمه عامل الاستجابة لصياغة استجابة
تحقق من هذا👇
إذا وجدت أنها ثاقبة ، فأعد مشاركتها مع شبكتك.
تجدني → @akshay_pachaar ✔️
لمزيد من الأفكار والبرامج التعليمية حول LLMs ووكلاء الذكاء الاصطناعي والتعلم الآلي!

5 أغسطس، 20:30
يستخدم عمالقة التكنولوجيا Multimodal RAG كل يوم في الإنتاج!
- يستخدمه Spotify للإجابة على استفسارات الموسيقى
- يستخدمه YouTube لتحويل المطالبات إلى مسارات
- تستخدمه Amazon Music لإنشاء قائمة تشغيل من المطالبة
دعنا نتعلم كيفية إنشاء RAG متعدد الوسائط (مع التعليمات البرمجية):
106.5K
الأفضل
المُتصدِّرة
التطبيقات المفضلة