المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Trissy
جولة صعود أخيرة
ستكون هناك فترة من الوقت تفوق فيها مجموعة مهاراتك بشكل كبير محفظتك.
إنها النقطة الأكثر تقلبا عاطفيا في رحلتك.
يوما بعد يوم ، تقوم بتحسين التنفيذ ، وشحذ قراءتك في السوق ، ومع ذلك تظل ثروتك الصافية محاصرة في بعض "الجحيم" التعسفية. أنت تشاهد الآخرين بحجم 100 ضعف حجمك وتدرك أنهم لا يملكون أي معرفة سرية ، فقط المزيد من رأس المال.
هذه هي منطقة النجاح أو الكسر.
كونك منخفض رأس المال يعني أن لديك فرصة صغيرة للمقامرة في ثروة النخبة كما يقول degenspartan.
كل صفقة تشبه المشي عبر الألغام الأرضية ، يمكن لحركة أو حركتين خاطئتين أن تقضي عليك تماما.
ومع ذلك ، فأنت تعلم أن لديك ما يلزم للانضمام إلى البطولات الكبرى ، فإن صافي ثروتك لم يثبت ذلك بعد.
إذا كنت ترغب عموما في الاختراق ، فأنت بحاجة إلى العثور على حالة تدفق قوية جدا لدرجة أنك ترفض الخروج منها لأنه على الجانب الآخر تنتظرك وظيفة 9-5.
افعل كل ما يتطلبه الأمر. في هذه المرحلة ، ستشعر وكأنك أصاب بالجنون حتى تحصل على استراحة محظوظة واحدة مما يجعل الأمر يستحق كل هذا التضحية.
3.29K
أفضل ميزة يمكن أن تحصل عليها كمتداول هذه الأيام هي التفكير بنفسك.
لقد دربنا الذكاء الاصطناعي على الاستعانة بمصادر خارجية للتفكير، مما يتسبب في تعفن الدماغ بين الأجيال. إذا تمكنت من تقسيم أطروحة خطوة بخطوة ، دون الاعتماد على محطة تبصق سلاسل نصية محددة مسبقا ، فستبقى في أعلى 1٪ ، لأنك لا تدع حافتك المعرفية تتآكل ببطء.
في الوقت الحالي ، التهديد الحقيقي للمجتمع ليس التضخم النقدي ، إنه التضخم المعرفي. يقوم الناس بالاستعانة بمصادر خارجية لقدراتهم العقلية ونظرتهم للعالم إلى ChatGPT ، ويعاملونها كمصدر للحقيقة.
إن الانضباط المتمثل في تكوين استنتاجاتك الخاصة من خلال الكتابة والتحليل والحدس هو ما سيفصل الفائزين عن البقية. لم يكن من السهل أبدا البقاء سلبيا والسماح للمعلومات بإطعامك بالملعقة.
نعم ، ستتسارع سرعة الذكاء الاصطناعي فقط. أنا لا أقول أنه لا يجب عليك استخدامه ، يجب عليك ذلك ، لأن تجاهله سيتركك وراءك. على الرغم من أنك بحاجة إلى قضاء جزء من يومك في القراءة بعمق ، ووضع الأحداث في سياقها ، وترجمتها إلى كلماتك الخاصة. اعتد على التفكير عالي الجودة.
خلاف ذلك ، فأنت مجرد هامستر آخر يركض على عجلة القيادة ، ويتفاعل مع العالم الذي يطير أمامك.
6.47K
حقيقة ممتعة:
كانت $REI دائما واحدة من أكثر حقائبي صعودا وقد تم تصميم هذا التصميم في مارس ، حيث كنت أخطط لكتابة تقرير بحثي متعمق عن بنيتها التحتية وحجمها في حوالي 10-15 مل.
لسوء الحظ ، لم أفعل ذلك بسبب عدم الإيمان بفريق Base لدعم بناة البيئة بعد مشاهدتهم وهم يتجاهلون تماما أعلى مشاريع مشاركة العقل على سلسلتهم مثل Virtuals.
بعد بضعة أسابيع ، أرى منشورات تدور حول @Delphi_Digital شارك خلف الكواليس والعمل مع فريق Rei ونشر تقارير بحثية في النهاية.
تبين أن تقييمي للبنية التحتية الخاصة بهم قد تم بحثه جيدا وكان الرسم البياني مرتفعا فقط ، حيث قام بعمل 15 ضعفا منذ ذلك الحين.
منذ ذلك الحين ، لم يكن هناك سوى مشروع مرافق واحد أعطاني قناعة أكثر من Rei: $CODEC
تماما مثل Rei ، لم يكن برنامج الترميز منطقيا تماما للناس لأن ما يبنونه فريد تماما من أي شيء رأيناه في السوق الحالية.
لا يركز نهجهم في البنية التحتية على ما يطلبه السوق اليوم ولكن ما سيطلبه لمدة 6-12 شهرا على الطريق.
هذا النوع من مشاريع البنية التحتية هو الذي أحب أن أراهن عليه المنزل ، ليس فقط مع المحفظة ولكن مع قناعتي ، لأنه إذا كنت على صواب ولدي الصبر للاحتفاظ به ، يمكنك جني ثروة الأجيال.
أعتقد أنه مع إصدار برنامج الترميز لمزيد من المعلومات حول منتجاتها والبدء في توفير الإصدار التجريبي لنظامهم الأساسي ، سنرى تدفقا كبيرا من أذرع البحث ورأس المال الاستثماري التقني مثل دلفي أصبحوا متفائلين للغاية بشأن ما يبنونه.
عدد قليل جدا من الفرق في هذا المجال يبني من المبادئ الأولى ، ويفكر في الأسئلة الفلسفية الأعمق حول كيفية تكيف المجتمع وتطوره وإعادة تنظيمه تحت وطأة التقدم المتسارع الذي تقوده الذكاء الاصطناعي والروبوتات.
عندما يصادفهم باحثون مثلي أو دلفي ، نحصل على حبوب حمراء تماما ونريد أن نفعل كل ما في وسعنا لرؤيتهم ينجحون لأننا نتماشى مع رؤيتهم بقوة.
حتى يومنا هذا ، لا يزال تسويق Rei وتصميماته وبصرياته أحد الأشياء المفضلة لدي من أي مشروع ، ناهيك عن منتجاتهم. يجب على أي فريق يتطلع إلى رفع المستوى أن يستخدمهم كمرجع حيث من الواضح أن لديهم فريقا وعقلية من المستوى S.
تركت عاملا خارجيا يؤثر على ما كان ينبغي أن يكون قرارا داخليا إلى حد ما يعتمد على البنية التحتية والمنتج. لن تدع ذلك يحدث مرة أخرى.
برنامج الترميز مشفر.

4.61K
لم يحتفل ب 6 ملايين ولا يحتفل ب 17 ميلا أيضا.
لاحظ كيف تحدثت فقط في كل المحتوى الخاص بي عن الهندسة المعمارية؟
أيا كان من يفوز بالمشغل وبنية الروبوتات سيكون أقرب إلى حروب blockchain في عام 2021 وإيجاد آلية الإجماع الأكثر قابلية للتطوير.
لا يتم بناء برنامج الترميز لجذب الانتباه خلال الأسبوعين المقبلين ، ولهذا السبب لا ترى مجموعة من المنشورات البراقة منخفضة الجودة تصدر على أساس يومي.
هذا المنتج هو حالة نادرة لدرجة أن مخطط ما يبنونه يتفوق على المشاريع الأخرى التي وصلت بالفعل إلى الحد الأقصى من بصرياتها مع المنتجات الحالية (المستثمرون والفريق والشركاء وما إلى ذلك).
أتلقى الكثير من الرسائل التي تسأل على غرار "لكن هذا ليس منطقيا تماما حتى الآن ، كيف تنقر جميع القطع معا؟".
الساحر لا يكشف أبدا عن أسراره (حتى الآن).
هل يخرج الدي جي المفضل لديك في بداية الليل أو نهايته؟ هل تأكل الحلوى أو المقبلات أولا؟ هل تشرب الشمبانيا قبل السباق أم بعد الفوز؟
إذن ماذا يحدث عندما نبدأ في رؤية الأشياء الممتعة؟
$CODEC مشفرة.


Trissy3 يوليو 2025
يستمر الناس في تهنئتي على $CODEC ، لماذا؟
حتى الآن ، لم نر حتى:
- أداة الرمز المميز
-حوافز
- خارطة الطريق
-العروض
- موقع جديد
-السوق
- الشراكات المستقبلية
- حالات الاستخدام
+ المزيد
كل ما رأيناه هو عدد قليل من الشراكات وإصدار مجمع الموارد الخاص بهم (Fabric).
لم أكتب مواضيع متعددة ، أو منشورات برقية متعددة ، أو أتحدث مع الفريق على أساس يومي تقريبا ، أو أنصح بالتسويق ، والعلامة التجارية ، وتحديد المواقع للاحتفال ب 6 مل.
كان غلاف chatgpt لفتاة أنيمي ذات شعر وردي كافيا ل 6 مل mcap مرة أخرى في الذكاء الاصطناعي szn.
تم إرسال المشاريع إلى 9 أرقام بين عشية وضحاها للفوز بهاكاثون أو تسليط الضوء عليها من كبار KOLs / الباحثين.
لقد نسي الجميع ما يحدث عندما تضيء الأضواء ويؤمن الناس مرة أخرى.
السبب في أنني تحولت إلى الاتجاه الصعودي في الأسبوع الماضي بالنسبة إلى onchain هو الاعتقاد في أدنى مستوياته في جميع الأوقات. كان الشهر الماضي من أكبر التطورات التي أحرزناها في هذه الصناعة جنبا إلى جنب مع الخلفية الكلية الإيجابية.
هل تتذكر هذا الشعور بسقوط المال من السماء؟ قد لا يمر وقت طويل حتى نتمكن من تجربته مرة أخرى.

10.8K
يجب أن تتوقف البروتوكولات والفرق عن الدفع ل KOLs مقابل المحتوى.
المرة الوحيدة التي يجب أن توزع فيها الفرق الرموز المميزة هي على KOLs أو أعضاء المجتمع الذين يخلقون قيمة عالية لمشروعهم ويعيدون النتائج.
يجب أن يكون منتجك أو روايتك مثيرة للاهتمام بما يكفي بحيث يرغب الأشخاص ذوو التأثير تلقائيا في شرائه والكتابة عنه بشكل طبيعي.
هذه هي الأشياء التي يجب أن تخصص لها الرموز المميزة ، وليس القيام ب 3 سلاسل رسائل مدفوعة للسفراء الذين يقومون بعمل روبوتات لمتابعيهم.
"ماذا لو لم أتمكن من جذب أي شخص مهتم بمنتجي للتغريد؟" ثم استمر في البناء ، فمن الواضح أنك لم تجد المكانة المناسبة أو الشبكة بما يكفي إذا لم تتمكن من بناء عدد قليل من المؤيدين الأساسيين.
رسالتي إلى البناة: قم ببناء شيء رائع بما يكفي يرغب الناس بشكل طبيعي في الشراء والكتابة عنه ، وإعطاء الرموز المميزة لأكبر الداعمين الذين يتماشى مع رؤيتك. منذ:
1. سيكونون أكثر عرضة للعمل الإضافي والذهاب إلى أبعد الحدود لمساعدتك على النجاح لأنك أظهرت سلوكا أخلاقيا قويا (وهو أمر نادر الحدوث في هذا المجال)
2. تلك التي تدفعها مقابل كمية معينة من المنشورات سوف تتقشر بمجرد انتهاء صفقتهم وتفريغ الرموز المميزة
لا أقوم بعروض ترويجية مدفوعة من أي نوع ، لكن من الواضح أنني لن أرفض الرموز المجانية لمشروع أنا متفائل للغاية بشأنه بدون قيود. لا يمكن شراء أفضل الكتاب وسيتم إبعادهم إذا حاولت ذلك.
العب اللعبة الطويلة ولا تأخذ اختصارات ، وسوف تنعكس في أفعالك عبر كل قطاع من قطاعات العمل ويمكن للمتداولين الأذكياء شمها من على بعد ميل واحد.
ماتت حملات KOL ، 99.9٪ من وكالات التسويق مضيعة للمال وستكون -ev لعملك.
الطريقة الوحيدة لاختراق هذا السوق هي وجود أعضاء فريق تشفير أصليين على استعداد لتسخين أيديهم.
3.47K
أكدت OpenAI للتو أطروحة النجم الشمالي الخاصة بي عن الذكاء الاصطناعي اليوم من خلال إطلاق سراح وكيل المشغل.
لم تكن هذه أطروحتي التوجيهية $CODEC فحسب ، بل كانت كل استثمار الذكاء الاصطناعي آخر قمت به ، بما في ذلك تلك التي وقعت في وقت سابق من العام خلال هوس الذكاء الاصطناعي.
كان هناك الكثير من النقاش مع برنامج الترميز فيما يتعلق بالروبوتات ، في حين أن هذا العمودي سيكون له روايته الخاصة قريبا جدا ، فإن السبب الأساسي الذي جعلني متفائلا جدا بشأن برنامج الترميز منذ اليوم الأول يرجع إلى كيفية قيام بنيتها بتشغيل وكلاء المشغلين.
لا يزال الناس يقللون من شأن مقدار الحصة السوقية المعرضة للخطر من خلال بناء برامج تعمل بشكل مستقل ، ويتفوق على العمال البشريين دون الحاجة إلى مطالبات أو رقابة مستمرة.
لقد رأيت الكثير من المقارنات مع $NUIT. أولا ، أريد أن أقول إنني من أشد المعجبين بما تبنيه Nuit ولا أتمنى شيئا سوى نجاحهم. إذا كتبت "nuit" في برقيتي ، فسترى أنه في أبريل قلت إنه إذا اضطررت إلى الاحتفاظ بعملة واحدة لعدة أشهر ، فستكون Nuit بسبب أطروحة المشغل الخاصة بي.
كان Nuit أكثر مشاريع المشغل الواعد على الورق ، ولكن بعد بحث مكثف ، وجدت أن هندسته المعمارية تفتقر إلى العمق اللازم لتبرير استثمار كبير أو وضع سمعتي وراءه.
مع وضع ذلك في الاعتبار ، كنت بالفعل على دراية بالثغرات المعمارية في فرق وكلاء المشغل الحالية والبحث بنشاط عن مشروع يعالجها. بعد فترة وجيزة من ظهور برنامج الترميز (بفضل إصرار @0xdetweiler على النظر بشكل أعمق) وهذا هو الفرق بين الاثنين:
$CODEC مقابل $NUIT
تم بناء بنية برنامج الترميز عبر ثلاث طبقات. الآلة والنظام والذكاء، التي تفصل بين البنية التحتية وواجهة البيئة ومنطق الذكاء الاصطناعي. يعمل كل عامل عميل في برنامج الترميز في الجهاز الظاهري أو الحاوية المعزولة الخاصة به، مما يسمح بالأداء الأصلي القريب وعزل الأخطاء. يعني هذا التصميم متعدد الطبقات أن المكونات يمكن أن تتوسع أو تتطور بشكل مستقل دون كسر النظام.
تأخذ الهندسة المعمارية ل Nuit مسارا مختلفا من خلال كونها أكثر تجانسا. تدور مجموعتها حول وكيل متصفح ويب متخصص يجمع بين التحليل والتفكير في الذكاء الاصطناعي والعمل. بمعنى أنها تحلل صفحات الويب بعمق إلى بيانات منظمة ليستهلكها الذكاء الاصطناعي وتعتمد على المعالجة السحابية لمهام الذكاء الاصطناعي الثقيلة.
إن نهج برنامج الترميز لتضمين نموذج Vision-Language-Action خفيف الوزن (VLA) داخل كل وكيل يعني أنه يمكن تشغيله محليا بالكامل. الأمر الذي لا يتطلب إعادة اتصال مستمر إلى السحابة للحصول على التعليمات ، والتخلص من زمن الوصول وتجنب الاعتماد على وقت التشغيل والنطاق الترددي.
يعالج وكيل Nuit المهام عن طريق تحويل صفحات الويب أولا إلى تنسيق دلالي ثم استخدام دماغ LLM لمعرفة ما يجب القيام به ، والذي يتحسن بمرور الوقت مع التعلم المعزز. على الرغم من فعاليته في أتمتة الويب ، إلا أن هذا التدفق يعتمد على معالجة الذكاء الاصطناعي الثقيلة من جانب السحابة وهياكل الصفحات المحددة مسبقا. يعني ذكاء الجهاز المحلي لبرنامج الترميز أن القرارات تحدث بالقرب من البيانات ، مما يقلل من النفقات العامة ويجعل النظام أكثر استقرارا للتغييرات غير المتوقعة (لا توجد نصوص هشة أو افتراضات DOM).
يتبع مشغلو برنامج الترميز حلقة مستمرة للإدراك والتفكير والفعل. تقوم طبقة الجهاز ببث البيئة (على سبيل المثال تطبيق مباشر أو تغذية روبوت) إلى طبقة الذكاء عبر القنوات المحسنة لطبقة النظام ، مما يمنح الذكاء الاصطناعي "عيون" على الحالة الحالية. يقوم نموذج VLA الخاص بالوكيل بعد ذلك بتفسير العناصر المرئية والتعليمات معا لاتخاذ قرار بشأن الإجراء ، والذي تنفذه طبقة النظام من خلال أحداث لوحة المفاتيح / الماوس أو التحكم في الروبوت. تعني هذه الحلقة المدمجة أنها تتكيف مع الأحداث الحية ، حتى إذا تحولت واجهة المستخدم ، فلن تكسر التدفق.
لوضع كل هذا في تشبيه أكثر بساطة ، فكر في مشغلي برنامج الترميز كموظف مكتف ذاتيا يتكيف مع المفاجآت في الوظيفة. يشبه وكيل Nuit الموظف الذي يحتاج إلى التوقف ، ووصف الموقف للمشرف عبر الهاتف ، وانتظار التعليمات.
دون النزول كثيرا في حفرة الأرانب الفنية ، يجب أن يمنحك هذا فكرة عالية المستوى عن سبب اختياري ل Codec كرهاني الأساسي على العملاء.
نعم ، يتمتع Nuit بدعم من YC ، وهو فريق مكدس و github من المستوى S. على الرغم من أن بنية برنامج الترميز قد تم إنشاؤها مع وضع القياس الأفقي في الاعتبار ، مما يعني أنه يمكنك نشر الآلاف من الوكلاء بالتوازي مع عدم وجود ذاكرة مشتركة أو سياق تنفيذ بين الوكلاء. فريق الترميز ليس مطورين عاديين أيضا.
تفتح بنية VLA الخاصة بهم العديد من حالات الاستخدام التي لم تكن ممكنة مع نماذج الوكلاء السابقة بسبب الرؤية من خلال وحدات البكسل ، وليس لقطات الشاشة.
يمكنني الاستمرار ولكني سأحفظ ذلك للمشاركات المستقبلية.
16.3K
الشيء هو ، إذا كنت تريد حقا أن تجعله في هذا الفضاء ، فسيعتقد كل من حولك أن هناك شيئا خاطئا معك.
لكي تكون حقا 0.001٪ ، فإن الحياة خارج الخنادق تكاد تكون معدومة.
لا فتيات ، ولا هوايات ، ولا نزهات اجتماعية ، ولا نتفليكس أو أي شيء يأخذك بعيدا عن الطحن.
إنه نوع من العقلية لا علاقة له حتى بأمثال الرياضيين المحترفين لأنه لا يوجد سبب يمنعك من الاتصال بالإنترنت 24/7.
نحن عالقون في مفارقة الحرية الخاصة بنا.
يريد الجميع القدرة السحرية على النقر فوق الأزرار للحصول على المال ، حتى يحين وقت قول لا ل 95٪ من المتعة.
سوف يلقي الأصدقاء والعائلة باستمرار تلميحات تشير إلى أن لديك شكلا من أشكال المرض العقلي ولن ترى الرؤية حقا.
يرتفع الغيرة عندما تتسلل أجزاء من النجاح ، إذا كنت تراقب الناس عن كثب بما فيه الكفاية ، فإنهم يكشفون دائما عن نواياهم الحقيقية ، حتى لو لم يقصدوا ذلك.
ستتخلى عنها أصغر التلميحات ، عادة من ردود الفعل العاطفية العفوية في اللحظة التي تحتاج فيها فقط إلى سماع بضع كلمات تنزلق ، في معظم الأوقات هذا كل ما يتطلبه الأمر.
عندما تصبح أكثر نجاحا ، تعلم التزام الهدوء. ليست هناك حاجة لذكر تقدمك ، بقدر ما سيكون رائعا لمشاركتها مع الجميع والاستمتاع بثمار عملك ، فلن يؤدي ذلك إلا إلى جذب الجشع من الآخرين.
يفشل معظمهم في ذلك لأنهم يجعلون "رجل التشفير" أو "المستثمر" شخصيتهم بالكامل. حتى لو كنت متصلا بالإنترنت لمدة 16 ساعة في اليوم ، فلا تزال بحاجة إلى اهتمامات وطموحات خارج هذه الصناعة.
يجب أن يرغب الأصدقاء في التسكع معك لجودة وجودك واختلاف مزاجك الذي تحدثه أثناء وجودك هناك ، وليس عدد الأرقام التي قمت بإنشائها على الشاشة.
إن عيش حياة خاصة ومنعزلة مع دائرة صغيرة من الأفراد ذوي الجودة العالية هو أعظم اختراق للحياة لراحة البال.
إذا كان وجودك لا يجعل الناس يشعرون بشيء ما دون الحديث عن المال ، فقد خسرت بالفعل.
6.08K
ما هو $CODEC
الروبوتات والمشغلين والألعاب؟
كل ما سبق وأكثر.
يعد برنامج الترميز نموذجا محايدا لإطار العمل ، مما يسمح بالعشرات من حالات الاستخدام نظرا لقدرته الفريدة على تصور الأخطاء مقارنة ب LLM.
على مدار ال 12 شهرا الماضية ، رأينا أن LLMs تعمل بشكل أساسي كآليات تكرار ، مدفوعة ببيانات محددة مسبقا وأنماط استجابة.
نظرا لأنها مبنية على الكلام والنص ، فإن LLMs لديها قدرة محدودة على التطور خارج نافذة السياق اللغوي التي تم تدريبها عليها. لا يمكنهم تفسير المدخلات الحسية ، مثل تعبيرات الوجه أو الإشارات العاطفية في الوقت الفعلي ، لأن تفكيرهم مرتبط باللغة وليس الإدراك.
يجمع معظم الوكلاء اليوم بين LLMs القائمة على المحولات وأجهزة التشفير المرئية. إنهم "يرون" الواجهة من خلال لقطات الشاشة ، ويفسرون ما يظهر على الشاشة ، ويولدون تسلسلات من الإجراءات ، والنقرات ، وضغطات المفاتيح ، والتمرير لاتباع التعليمات وإكمال المهام.
هذا هو السبب في أن الذكاء الاصطناعي لم يحل محل فئات كبيرة من الوظائف حتى الآن: يرى LLMs لقطات الشاشة وليس وحدات البكسل. إنهم لا يفهمون الدلالات المرئية الديناميكية للبيئة ، فقط ما يمكن قراءته من خلال الإطارات الثابتة.
سير عملهم النموذجي متكرر: التقاط لقطة شاشة ، وسبب الإجراء التالي ، وتنفيذه ، ثم التقاط إطار آخر وتكراره. تستمر حلقة التفكير الإدراكي هذه حتى تكتمل المهمة أو يفشل العامل.
للتعميم الحقيقي ، يجب على الذكاء الاصطناعي أن يدرك بيئته ، والتفكير في حالته ، وأن يتصرف بشكل مناسب لتحقيق الأهداف ، وليس مجرد تفسير اللقطات.
لدينا بالفعل وحدات ماكرو وروبوتات RPA ونصوص أتمتة ، لكنها ضعيفة وغير مستقرة. يؤدي التحول الطفيف في البكسل أو تغيير التخطيط إلى كسر التدفق ويتطلب تصحيحا يدويا. لا يمكنهم التكيف عندما يتغير شيء ما في سير العمل. هذا هو عنق الزجاجة.
الرؤية واللغة والعمل (VLA)
يعمل وكلاء VLA في برنامج الترميز على حلقة بديهية ولكنها قوية: إدراك ، فكر ، تصرف. بدلا من مجرد بصق النص مثل معظم LLMs ، يرى هؤلاء الوكلاء بيئتها ، ويقررون ما يجب القيام به ثم تنفيذها. يتم تجميع كل ذلك في خط أنابيب واحد موحد ، والذي يمكنك تصوره في ثلاث طبقات أساسية:
رؤية
يدرك الوكيل أولا بيئته من خلال الرؤية. بالنسبة لوكيل مشغل سطح المكتب، يعني هذا التقاط لقطة شاشة أو إدخال مرئي للحالة الحالية (على سبيل المثال، نافذة تطبيق أو مربع نص). يفسر مكون رؤية نموذج VLA هذا الإدخال ، ويقرأ على نص الشاشة ويتعرف على عناصر أو كائنات الواجهة. ويعرف أيضا باسم عيون الوكيل.
اللغة
ثم يأتي التفكير. بالنظر إلى السياق المرئي (وأي تعليمات أو أهداف) ، يحلل النموذج الإجراء المطلوب. بشكل أساسي ، "يفكر" الذكاء الاصطناعي في الاستجابة المناسبة تماما مثل الشخص. تدمج بنية VLA الرؤية واللغة داخليا ، بحيث يمكن للعامل ، على سبيل المثال ، فهم أن مربع الحوار المنبثق يطرح سؤالا بنعم / لا. سيقرر بعد ذلك الإجراء الصحيح (على سبيل المثال ، انقر فوق "موافق") بناء على الهدف أو المطالبة. بمثابة دماغ الوكيل ، ورسم خرائط للمدخلات المتصورة لعمل ما.
فعل
أخيرا ، يعمل العامل عن طريق إخراج أمر تحكم إلى البيئة. بدلا من النص ، يقوم نموذج VLA بإنشاء إجراء (مثل نقرة الماوس أو ضغطة المفتاح أو استدعاء واجهة برمجة التطبيقات) يتفاعل مباشرة مع النظام. في مثال مربع الحوار ، سيقوم الوكيل بتنفيذ النقر على الزر "موافق". هذا يغلق الحلقة: بعد التمثيل ، يمكن للوكيل التحقق بصريا من النتيجة ومواصلة دورة الإدراك والتفكير والفعل. الإجراءات هي فاصل المفاتيح الذي يحولها من مربعات الدردشة إلى المشغلين الفعليين.
حالات الاستخدام
كما ذكرت ، نظرا للهندسة المعمارية ، فإن برنامج الترميز لا يعتمد على السرد. مثلما لا تقتصر LLM على المخرجات النصية التي يمكنهم إنتاجها ، فإن VLA لا تقتصر على المهام التي يمكنهم إكمالها.
الروبوتات
بدلا من الاعتماد على البرامج النصية القديمة أو الأتمتة غير الكاملة ، يأخذ وكلاء VLA المدخلات المرئية (تغذية الكاميرا أو أجهزة الاستشعار) ، ويمررونها عبر نموذج لغة للتخطيط ، ثم يخرجون أوامر التحكم الفعلية للتحرك أو التفاعل مع العالم.
في الأساس ، يرى الروبوت ما أمامه ، ويعالج تعليمات مثل "تحريك علبة بيبسي بجوار اللون البرتقالي" ، ويعرف مكان كل شيء ، وكيفية التحرك دون ضرب أي شيء ، ويفعل ذلك دون الحاجة إلى ترميز ثابت.
هذه هي نفس فئة النظام مثل RT-2 أو PaLM-E من Google. نماذج كبيرة تدمج الرؤية واللغة لإنشاء إجراءات في العالم الحقيقي. يعد عمل VLA الخاص ب CogAct مثالا جيدا ، حيث يقوم الروبوت بمسح جدول مزدحم ، ويحصل على مطالبة طبيعية ، ويقوم بتشغيل حلقة كاملة: معرف الكائن ، وتخطيط المسار ، وتنفيذ الحركة.
المشغلون
في بيئة سطح المكتب والويب ، يعمل وكلاء VLA بشكل أساسي مثل العمال الرقميين. إنهم "يرون" الشاشة من خلال لقطة شاشة أو بث مباشر ، ويقومون بتشغيلها من خلال طبقة تفكير مبنية على نموذج لغة لفهم كل من واجهة المستخدم وموجه المهمة ، ثم ينفذون الإجراءات بتحكم حقيقي في الماوس ولوحة المفاتيح ، كما يفعل الإنسان.
هذه الحلقة الكاملة ، الإدراك ، التفكير ، الفعل تعمل باستمرار. لذلك لا يتفاعل العامل مرة واحدة فحسب ، بل يتنقل بنشاط في الواجهة ، ويتعامل مع تدفقات متعددة الخطوات دون الحاجة إلى أي برامج نصية مشفرة. البنية عبارة عن مزيج من رؤية نمط التعرف الضوئي على الحروف لقراءة النص / الأزرار / الرموز ، والتفكير الدلالي لتحديد ما يجب القيام به ، وطبقة تحكم يمكنها النقر والتمرير والكتابة وما إلى ذلك.
حيث يصبح هذا مثيرا للاهتمام حقا هو معالجة الأخطاء. يمكن لهؤلاء الوكلاء التفكير بعد الإجراءات وإعادة التخطيط إذا لم يسير شيء ما كما هو متوقع. على عكس البرامج النصية RPA التي تتعطل إذا تغيرت واجهة المستخدم بشكل طفيف، مثل موضع تغيير الزر أو إعادة تسمية التسمية، يمكن لعامل VLA التكيف مع التخطيط الجديد باستخدام الإشارات المرئية وفهم اللغة. يجعلها أكثر مرونة للأتمتة في العالم الحقيقي حيث تتغير الواجهات باستمرار.
شيء عانيت منه شخصيا عند ترميز روبوتات البحث الخاصة بي من خلال أدوات مثل الكاتب المسرحي.
الالعاب
تعد الألعاب واحدة من أوضح حالات الاستخدام حيث يمكن لوكلاء VLA التألق ، والتفكير فيهم بشكل أقل شبها بالروبوتات وأكثر شبها بمشغلات الذكاء الاصطناعي الغامرة. التدفق بأكمله هو نفسه ، يرى الوكيل شاشة اللعبة (الإطارات ، القوائم ، المطالبات النصية) ، والأسباب المتعلقة بما يفترض أن تفعله ، ثم يلعب باستخدام مدخلات الماوس أو لوحة المفاتيح أو وحدة التحكم.
لا يركز الأمر على القوة الغاشمة ، بل يتعلم الذكاء الاصطناعي كيفية اللعب مثل الإنسان. الإدراك + التفكير + التحكم ، كلها مرتبطة ببعضها البعض. لقد فتح مشروع SIMA الخاص ب DeepMind هذا من خلال الجمع بين نموذج لغة الرؤية وطبقة تنبؤية وإسقاطه في ألعاب مثل No Man's Sky و Minecraft. من مجرد مشاهدة الشاشة واتباع التعليمات ، يمكن للوكيل إكمال المهام المجردة مثل "بناء نار المخيم" عن طريق ربط الخطوات الصحيحة معا ، وجمع الخشب ، والعثور على أعواد الثقاب ، واستخدام المخزون. ولم يقتصر الأمر على لعبة واحدة فقط. لقد نقلت تلك المعرفة بين بيئات مختلفة.
وكلاء ألعاب VLA غير مقفلين في مجموعة قواعد واحدة. يمكن للوكيل نفسه أن يتكيف مع آليات مختلفة تماما ، فقط من الرؤية والتأريض اللغوي. ولأنه مبني على البنية التحتية LLM ، يمكنه شرح ما يفعله ، أو اتباع تعليمات اللغة الطبيعية في منتصف اللعبة ، أو التعاون مع اللاعبين في الوقت الفعلي.
لسنا بعيدين عن وجود زملاء في فريق الذكاء الاصطناعي يتكيفون مع أسلوب لعبك وتخصيصاتك ، كل ذلك بفضل برنامج الترميز.

9.59K
الأفضل
المُتصدِّرة
التطبيقات المفضلة
رائج على السلسة
رائج على منصة X
أهم عمليات التمويل الأخيرة
الأبرز