هل تتذكر اللاعبين الذين كان لديهم مئات المراهقين يلعبون Axie Infinity لكسب جرعات الحب السحرية؟
نعم ، كان ذلك قبل 4 سنوات.
يمكنك الآن فقط تدريب وتدوير 100 عميل ترميز مستقل للعب نيابة عنك بدلا من ذلك
... واستثمارها وبيعها للآخرين
✅ الذكاء الاصطناعي × الروبوتات
يسخن سرد الذكاء الاصطناعي x Robotics بشكل حقيقي مع نماذج VLA
في هذه المرحلة من النظام البيئي الذكاء الاصطناعي ، تستخدم غالبية البروتوكولات والوكلاء محركات LLM المستندة إلى النص أو لقطات شاشة ثابتة لتفسير البيانات
لكن تذكر فقط أن معظم العالم الحقيقي لا يحتوي على إمكانية الوصول إلى واجهة برمجة التطبيقات ، فأنت بحاجة إلى رؤية وقرارات وإجراءات. يجب أن ينظر إلى العالم الحقيقي بالبكسل وهذا هو المكان الذي تأتي فيه نماذج VLA
يسمح @Codecopenflow بأتمتة البرامج والروبوتات من خلال الرؤية باستخدام مجموعة تقنية مصممة من البداية
✅ مشغلي الترميز
المشغلون هم وكلاء برمجيات مستقلون يمكنهم أداء المهام من خلال دورة إدراك العقل والفعل. تسمح لهم القدرة على رؤية الشاشة (أو موجزات الكاميرا أو بيانات المستشعر) باتخاذ قرارات لن تتمكن LLMs من القيام بها
• الإدراك: يلتقط لقطات الشاشة أو موجزات الكاميرا أو بيانات المستشعر
• التفكير: يعالج الملاحظات والتعليمات باستخدام نماذج لغة الرؤية
• الإجراء: ينفذ القرارات من خلال تفاعلات واجهة المستخدم أو التحكم في الأجهزة
في حلقة مستمرة
يمكن للعملاء العمل على خوادم معدنية عارية أو أجهزة افتراضية (على أي نظام تشغيل) أو حتى على الروبوتات.
يحصل كل مشغل تلقائيا على جهاز حوسبة مخصص (جهاز ظاهري معزول أو مثيل حاوية)، ويمكن تأمينه بواسطة TEEs (عزل على مستوى الأجهزة) للتعليمات البرمجية والبيانات الحساسة.
✅ طبقة ذكاء الذكاء الاصطناعي
يمكن تكوين العملاء لاستخدام نموذج واحد أو أكثر (LLM أو VLA) مجتمعين ك "دماغهم"
على سبيل المثال ، يتيح إقران نموذج لغة Mixtral-8×7B منخفض التكلفة مع نموذج رؤية CogVLM مفتوح المصدر للعملاء قراءة النص الذي يظهر على الشاشة وتفسير الشاشة الحية أو موجزات الكاميرا - كل ذلك بجزء بسيط من تكلفة GPT-4.
يتيح نموذج VLA (Vision-Language-Action) للوكيل تفسير المدخلات المرئية ، ثم اتخاذ قرار بشأن الإجراء بناء على ما يراه
✅ حالات الاستخدام
🔹 أتمتة سطح المكتب
يمكن أتمتة المهام المكتبية المتكررة عن طريق التحكم في واجهات المستخدم الرسومية. مثل ملء جداول البيانات أو تحديث التقويمات أو المهام الأخرى التي تتطلب تفاعلا مع واجهة المستخدم الرسومية (GUI)
يمكنه التعامل مع تحديثات واجهة المستخدم حيث يمكنه بالفعل رؤية ما يفعله
🔹 وكلاء الألعاب
يمكن للمشغلين التحكم في اللاعبين أو اختبار ألعاب الفيديو. يقوم الوكلاء ببث الشاشة ويمكنهم اتخاذ إجراءات بناء على ما يرونه عن طريق إرسال أوامر لوحة المفاتيح أو الماوس إلى اللعبة.
يمكن استخدامها لاختبار ضمان الجودة ، أو حتى خصوم NPC المتقدمين أو أتمتة ألعاب web3
🔹 الروبوتات
يمكن للمشغلين التحكم في الروبوتات المادية. ستتصل طبقة الماكينة بأجهزة الروبوتات المزودة بأجهزة استشعار ومشغلات ، ويمكن للوكيل إرسال أوامر لتحريك ذراع أو التنقل.
على سبيل المثال ، يمكنه التقاط تغذية الكاميرا للأشياء التي تتحرك على حزام ناقل واتخاذ إجراءات بناء على الحركة. إذا كان هناك عقبة في الطريقة التي يمكن للمشغل رؤيتها والتحكم في الروبوت لتجنبها
✅ جمع البيانات وقضبان الأمان على السلسلة
من خلال إحضار معلومات العملاء على السلسلة إلى Solana ، يمكنهم تقديم سجلات إجراءات غير قابلة للتغيير من جميع الإجراءات التي تم تنفيذها
في المستقبل ، يمكننا أن نرى نقطة سيطلب فيها من شركات الروبوتات مشاركة رمز مميز لضمان أن مشغليها لن يجعلوا الروبوت يتواصل جسديا مع إنسان على قوة معينة. إذا انتهكوه ، قطعه لجزء من الرمز المميز المكدس (مثل EigenLayer / إعادة التثبيت التكافلي)
✅ بيئة التدريب على الروبوتات
باستخدام برنامج الترميز ، يمكن نشر النماذج الافتراضية غير المدربة في ساحة تدريب ديناميكية عالية الدقة ، دون الحاجة إلى روبوت مادي.
قم بمحاكاة السلوكيات المعقدة وتدريبها وتحسينها على نطاق السحابة، ثم انقل هذه السياسات إلى أجهزة حقيقية بثقة.
يمكن إنشاء بيئات التدريب بسرعة لجميع أنواع المشغلين (البرامج أو الألعاب أو الروبوتات)
✅ SDK برنامج الترميز
تم تطوير SDK وواجهة برمجة تطبيقات كاملة حتى يتمكن المطورون من نشر مشغليهم بسهولة
✅ سوق المشغل
يمكن بيع المشغلين (في المستقبل) في سوق مخصص.
سيكون هناك تقسيم للإيرادات بحيث يمكنك شحن مشغل VLA الخاص بك وتحقيق الدخل منه ، مما يعني أنه إذا قمت بتدريب مشغلين فعالين ، فقد يكون لديك تدفقات إيرادات إضافية
✅ الأفكار الختامية
أعتقد أننا سنشهد تطورات هائلة في مجال VLA في العام المقبل. لقد رأينا مدى سرعة تطوير LLMs ، فقد كان ذلك قبل بضع سنوات فقط منذ إطلاق GPT-1. من المحتمل جدا أن تصبح نماذج الروبوتات والرؤية سردا ساخنا في مرحلة ما من هذه الدورة ، وأحب أن أكون في وقت مبكر
أوه وهل ذكرت أن المؤسسين المشاركين من ألعاب 👀 Hugging Face و Elixir
ملاحظة: يحتوي Slappjakke على أكياس $CODEC كبيرة ، وهذه واحدة من تلك الأوقات التي أصبحت فيها أكثر تفاؤلا أثناء كتابة هذا الموضوع وأضفت المزيد
هذه ليست دائما نصيحة مالية واستثمارا عالي المخاطر ، لذا قم بالبحث الخاص بك.
عرض الأصل



8.19 ألف
100
المحتوى الوارد في هذه الصفحة مُقدَّم من أطراف ثالثة. وما لم يُذكَر خلاف ذلك، فإن OKX ليست مُؤلِّفة المقالة (المقالات) المذكورة ولا تُطالِب بأي حقوق نشر وتأليف للمواد. المحتوى مٌقدَّم لأغراض إعلامية ولا يُمثِّل آراء OKX، وليس الغرض منه أن يكون تأييدًا من أي نوع، ولا يجب اعتباره مشورة استثمارية أو التماسًا لشراء الأصول الرقمية أو بيعها. إلى الحد الذي يُستخدَم فيه الذكاء الاصطناعي التوليدي لتقديم مُلخصَّات أو معلومات أخرى، قد يكون هذا المحتوى الناتج عن الذكاء الاصطناعي غير دقيق أو غير مُتسِق. من فضلك اقرأ المقالة ذات الصِلة بهذا الشأن لمزيدٍ من التفاصيل والمعلومات. OKX ليست مسؤولة عن المحتوى الوارد في مواقع الأطراف الثالثة. والاحتفاظ بالأصول الرقمية، بما في ذلك العملات المستقرة ورموز NFT، فيه درجة عالية من المخاطر وهو عُرضة للتقلُّب الشديد. وعليك التفكير جيِّدًا فيما إذا كان تداوُل الأصول الرقمية أو الاحتفاظ بها مناسبًا لك في ظل ظروفك المالية.