المواضيع الرائجة
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
ما هو $CODEC
الروبوتات والمشغلين والألعاب؟
كل ما سبق وأكثر.
يعد برنامج الترميز نموذجا محايدا لإطار العمل ، مما يسمح بالعشرات من حالات الاستخدام نظرا لقدرته الفريدة على تصور الأخطاء مقارنة ب LLM.
على مدار ال 12 شهرا الماضية ، رأينا أن LLMs تعمل بشكل أساسي كآليات تكرار ، مدفوعة ببيانات محددة مسبقا وأنماط استجابة.
نظرا لأنها مبنية على الكلام والنص ، فإن LLMs لديها قدرة محدودة على التطور خارج نافذة السياق اللغوي التي تم تدريبها عليها. لا يمكنهم تفسير المدخلات الحسية ، مثل تعبيرات الوجه أو الإشارات العاطفية في الوقت الفعلي ، لأن تفكيرهم مرتبط باللغة وليس الإدراك.
يجمع معظم الوكلاء اليوم بين LLMs القائمة على المحولات وأجهزة التشفير المرئية. إنهم "يرون" الواجهة من خلال لقطات الشاشة ، ويفسرون ما يظهر على الشاشة ، ويولدون تسلسلات من الإجراءات ، والنقرات ، وضغطات المفاتيح ، والتمرير لاتباع التعليمات وإكمال المهام.
هذا هو السبب في أن الذكاء الاصطناعي لم يحل محل فئات كبيرة من الوظائف حتى الآن: يرى LLMs لقطات الشاشة وليس وحدات البكسل. إنهم لا يفهمون الدلالات المرئية الديناميكية للبيئة ، فقط ما يمكن قراءته من خلال الإطارات الثابتة.
سير عملهم النموذجي متكرر: التقاط لقطة شاشة ، وسبب الإجراء التالي ، وتنفيذه ، ثم التقاط إطار آخر وتكراره. تستمر حلقة التفكير الإدراكي هذه حتى تكتمل المهمة أو يفشل العامل.
للتعميم الحقيقي ، يجب على الذكاء الاصطناعي أن يدرك بيئته ، والتفكير في حالته ، وأن يتصرف بشكل مناسب لتحقيق الأهداف ، وليس مجرد تفسير اللقطات.
لدينا بالفعل وحدات ماكرو وروبوتات RPA ونصوص أتمتة ، لكنها ضعيفة وغير مستقرة. يؤدي التحول الطفيف في البكسل أو تغيير التخطيط إلى كسر التدفق ويتطلب تصحيحا يدويا. لا يمكنهم التكيف عندما يتغير شيء ما في سير العمل. هذا هو عنق الزجاجة.
الرؤية واللغة والعمل (VLA)
يعمل وكلاء VLA في برنامج الترميز على حلقة بديهية ولكنها قوية: إدراك ، فكر ، تصرف. بدلا من مجرد بصق النص مثل معظم LLMs ، يرى هؤلاء الوكلاء بيئتها ، ويقررون ما يجب القيام به ثم تنفيذها. يتم تجميع كل ذلك في خط أنابيب واحد موحد ، والذي يمكنك تصوره في ثلاث طبقات أساسية:
رؤية
يدرك الوكيل أولا بيئته من خلال الرؤية. بالنسبة لوكيل مشغل سطح المكتب، يعني هذا التقاط لقطة شاشة أو إدخال مرئي للحالة الحالية (على سبيل المثال، نافذة تطبيق أو مربع نص). يفسر مكون رؤية نموذج VLA هذا الإدخال ، ويقرأ على نص الشاشة ويتعرف على عناصر أو كائنات الواجهة. ويعرف أيضا باسم عيون الوكيل.
اللغة
ثم يأتي التفكير. بالنظر إلى السياق المرئي (وأي تعليمات أو أهداف) ، يحلل النموذج الإجراء المطلوب. بشكل أساسي ، "يفكر" الذكاء الاصطناعي في الاستجابة المناسبة تماما مثل الشخص. تدمج بنية VLA الرؤية واللغة داخليا ، بحيث يمكن للعامل ، على سبيل المثال ، فهم أن مربع الحوار المنبثق يطرح سؤالا بنعم / لا. سيقرر بعد ذلك الإجراء الصحيح (على سبيل المثال ، انقر فوق "موافق") بناء على الهدف أو المطالبة. بمثابة دماغ الوكيل ، ورسم خرائط للمدخلات المتصورة لعمل ما.
فعل
أخيرا ، يعمل العامل عن طريق إخراج أمر تحكم إلى البيئة. بدلا من النص ، يقوم نموذج VLA بإنشاء إجراء (مثل نقرة الماوس أو ضغطة المفتاح أو استدعاء واجهة برمجة التطبيقات) يتفاعل مباشرة مع النظام. في مثال مربع الحوار ، سيقوم الوكيل بتنفيذ النقر على الزر "موافق". هذا يغلق الحلقة: بعد التمثيل ، يمكن للوكيل التحقق بصريا من النتيجة ومواصلة دورة الإدراك والتفكير والفعل. الإجراءات هي فاصل المفاتيح الذي يحولها من مربعات الدردشة إلى المشغلين الفعليين.
حالات الاستخدام
كما ذكرت ، نظرا للهندسة المعمارية ، فإن برنامج الترميز لا يعتمد على السرد. مثلما لا تقتصر LLM على المخرجات النصية التي يمكنهم إنتاجها ، فإن VLA لا تقتصر على المهام التي يمكنهم إكمالها.
الروبوتات
بدلا من الاعتماد على البرامج النصية القديمة أو الأتمتة غير الكاملة ، يأخذ وكلاء VLA المدخلات المرئية (تغذية الكاميرا أو أجهزة الاستشعار) ، ويمررونها عبر نموذج لغة للتخطيط ، ثم يخرجون أوامر التحكم الفعلية للتحرك أو التفاعل مع العالم.
في الأساس ، يرى الروبوت ما أمامه ، ويعالج تعليمات مثل "تحريك علبة بيبسي بجوار اللون البرتقالي" ، ويعرف مكان كل شيء ، وكيفية التحرك دون ضرب أي شيء ، ويفعل ذلك دون الحاجة إلى ترميز ثابت.
هذه هي نفس فئة النظام مثل RT-2 أو PaLM-E من Google. نماذج كبيرة تدمج الرؤية واللغة لإنشاء إجراءات في العالم الحقيقي. يعد عمل VLA الخاص ب CogAct مثالا جيدا ، حيث يقوم الروبوت بمسح جدول مزدحم ، ويحصل على مطالبة طبيعية ، ويقوم بتشغيل حلقة كاملة: معرف الكائن ، وتخطيط المسار ، وتنفيذ الحركة.
المشغلون
في بيئة سطح المكتب والويب ، يعمل وكلاء VLA بشكل أساسي مثل العمال الرقميين. إنهم "يرون" الشاشة من خلال لقطة شاشة أو بث مباشر ، ويقومون بتشغيلها من خلال طبقة تفكير مبنية على نموذج لغة لفهم كل من واجهة المستخدم وموجه المهمة ، ثم ينفذون الإجراءات بتحكم حقيقي في الماوس ولوحة المفاتيح ، كما يفعل الإنسان.
هذه الحلقة الكاملة ، الإدراك ، التفكير ، الفعل تعمل باستمرار. لذلك لا يتفاعل العامل مرة واحدة فحسب ، بل يتنقل بنشاط في الواجهة ، ويتعامل مع تدفقات متعددة الخطوات دون الحاجة إلى أي برامج نصية مشفرة. البنية عبارة عن مزيج من رؤية نمط التعرف الضوئي على الحروف لقراءة النص / الأزرار / الرموز ، والتفكير الدلالي لتحديد ما يجب القيام به ، وطبقة تحكم يمكنها النقر والتمرير والكتابة وما إلى ذلك.
حيث يصبح هذا مثيرا للاهتمام حقا هو معالجة الأخطاء. يمكن لهؤلاء الوكلاء التفكير بعد الإجراءات وإعادة التخطيط إذا لم يسير شيء ما كما هو متوقع. على عكس البرامج النصية RPA التي تتعطل إذا تغيرت واجهة المستخدم بشكل طفيف، مثل موضع تغيير الزر أو إعادة تسمية التسمية، يمكن لعامل VLA التكيف مع التخطيط الجديد باستخدام الإشارات المرئية وفهم اللغة. يجعلها أكثر مرونة للأتمتة في العالم الحقيقي حيث تتغير الواجهات باستمرار.
شيء عانيت منه شخصيا عند ترميز روبوتات البحث الخاصة بي من خلال أدوات مثل الكاتب المسرحي.
الالعاب
تعد الألعاب واحدة من أوضح حالات الاستخدام حيث يمكن لوكلاء VLA التألق ، والتفكير فيهم بشكل أقل شبها بالروبوتات وأكثر شبها بمشغلات الذكاء الاصطناعي الغامرة. التدفق بأكمله هو نفسه ، يرى الوكيل شاشة اللعبة (الإطارات ، القوائم ، المطالبات النصية) ، والأسباب المتعلقة بما يفترض أن تفعله ، ثم يلعب باستخدام مدخلات الماوس أو لوحة المفاتيح أو وحدة التحكم.
لا يركز الأمر على القوة الغاشمة ، بل يتعلم الذكاء الاصطناعي كيفية اللعب مثل الإنسان. الإدراك + التفكير + التحكم ، كلها مرتبطة ببعضها البعض. لقد فتح مشروع SIMA الخاص ب DeepMind هذا من خلال الجمع بين نموذج لغة الرؤية وطبقة تنبؤية وإسقاطه في ألعاب مثل No Man's Sky و Minecraft. من مجرد مشاهدة الشاشة واتباع التعليمات ، يمكن للوكيل إكمال المهام المجردة مثل "بناء نار المخيم" عن طريق ربط الخطوات الصحيحة معا ، وجمع الخشب ، والعثور على أعواد الثقاب ، واستخدام المخزون. ولم يقتصر الأمر على لعبة واحدة فقط. لقد نقلت تلك المعرفة بين بيئات مختلفة.
وكلاء ألعاب VLA غير مقفلين في مجموعة قواعد واحدة. يمكن للوكيل نفسه أن يتكيف مع آليات مختلفة تماما ، فقط من الرؤية والتأريض اللغوي. ولأنه مبني على البنية التحتية LLM ، يمكنه شرح ما يفعله ، أو اتباع تعليمات اللغة الطبيعية في منتصف اللعبة ، أو التعاون مع اللاعبين في الوقت الفعلي.
لسنا بعيدين عن وجود زملاء في فريق الذكاء الاصطناعي يتكيفون مع أسلوب لعبك وتخصيصاتك ، كل ذلك بفضل برنامج الترميز.

9.18K
الأفضل
المُتصدِّرة
التطبيقات المفضلة