Pamatujete si na hráče, kteří měli stovky teenagerů, kteří hráli Axie Infinity, aby získali kouzelné lektvary lásky?
Ano, to bylo před 4 lety.
Nyní můžete jen trénovat a roztočit 100 operátorů autonomních kodeků, aby místo toho hráli za vás
... a zpeněžit je a prodat je ostatním
✅ AI x Robotika
Příběh AI x Robotics se díky modelům VLA skutečně zahřívá
V této fázi ekosystému umělé inteligence používá většina protokolů a agentů k interpretaci dat textové LLM enginy nebo statické snímky obrazovky
Pamatujte však, že většina reálného světa nemá přístup k API, potřebujete vizi, rozhodnutí a akce. Reálný svět musí být viděn v pixelech a zde přicházejí na řadu modely VLA
@Codecopenflow umožňuje automatizaci softwaru a robotiky prostřednictvím vidění pomocí technologického stacku vytvořeného od nuly
✅ Operátory kodeku
Operátoři jsou autonomní softwaroví agenti, kteří mohou provádět úkoly prostřednictvím cyklu vnímání-rozum-jednání. Schopnost vidět obrazovku (nebo záznamy z kamery nebo data ze senzorů) jim umožňuje činit rozhodnutí, která by LLM nebyli schopni dělat
• Vnímání: Pořizuje snímky obrazovky, kanály z kamery nebo data ze senzorů
• Uvažování: Zpracovává pozorování a pokyny pomocí modelů jazyka vidění
• Akce: Provádí rozhodnutí prostřednictvím interakcí uživatelského rozhraní nebo ovládání hardwaru
V nepřetržité smyčce
Operátoři mohou běžet na holých serverech, virtuálních strojích (na jakémkoli operačním systému) nebo dokonce na robotech.
Každý operátor automaticky získá vyhrazený výpočetní stroj (izolovaný virtuální počítač nebo instanci kontejneru) a může být zabezpečen pomocí TEE (izolace na úrovni hardwaru) pro citlivý kód a data.
✅ Vrstva inteligence AI
Operátoři mohou být nakonfigurováni tak, aby používali jeden nebo více modelů (LLM nebo VLA) kombinovaných jako svůj "mozek"
Například spárování levného jazykového modelu Mixtral-8×7B s open-source modelem vidění CogVLM umožňuje operátorům číst text na obrazovce a interpretovat živé přenosy z obrazovky nebo kamery - to vše za zlomek nákladů na GPT-4.
Model VLA (Vision-Language-Action) umožňuje agentovi interpretovat vizuální vstup a poté se rozhodnout o akci na základě toho, co vidí
✅ Případy použití
🔹 Automatizace stolních počítačů
Dokáže automatizovat opakující se kancelářské úkoly ovládáním grafického uživatelského rozhraní. Jako je vyplňování tabulek, aktualizace kalendářů nebo jiné úkoly, které vyžadují interakci s grafickým uživatelským rozhraním
Dokáže zpracovávat aktualizace uživatelského rozhraní, protože skutečně vidí, co dělá
🔹 Herní agenti
Operátoři mohou ovládat přehrávače nebo testovat videohry. Agenti streamují obrazovku a mohou provádět akce na základě toho, co vidí, odesíláním příkazů z klávesnice nebo myši do hry.
Může být použit pro QA testování, nebo dokonce pro pokročilé NPC protivníky nebo automatizaci web3 her
🔹 Robotika
Operátoři mohou ovládat fyzické roboty. Vrstva stroje se připojí k hardwaru robota se senzory a akčními členy a agent může odesílat příkazy k pohybu ramene nebo navigaci.
Mohl by například zachytit kamerový záznam objektů pohybujících se na dopravníkovém pásu a na základě tohoto pohybu provádět akce. Pokud je v cestě překážka, obsluha ji vidí a může ovládat robota tak, aby se jí vyhnul
✅ Sběr dat a bezpečnostní zábradlí Onchain
Tím, že přinesou informace o operátorech do Solany, mohou nabídnout neměnné protokoly akcí ze všech provedených akcí
V budoucnu se můžeme dočkat bodu, kdy budou robotické společnosti povinny vsadit token, aby bylo zaručeno, že jejich operátoři nepřimějí robota k fyzickému kontaktu s člověkem přes určitou sílu. Pokud by ji porušil, byl by seříznut o část stakovaného tokenu (jako EigenLayer / Symbiotic retaking)
✅ Školicí prostředí pro robotiku
Pomocí kodeku lze netrénované virtuální modely nasadit do dynamického tréninkového prostoru s vysokou věrností, aniž by byl potřeba fyzický robot.
Simulujte, trénujte a vylepšujte složité chování v cloudovém měřítku a poté tyto zásady bez obav přeneste na skutečný hardware.
Školicí prostředí lze rychle vytvořit pro všechny typy operátorů (software, hry nebo robotika)
✅ Sada SDK kodeků
Byla vyvinuta kompletní sada SDK a rozhraní API, aby vývojáři mohli snadno nasadit své operátory
✅ Tržiště operátorů
Operátoři mohou být (v budoucnu) prodávány na vlastním tržišti.
Dojde k rozdělení příjmů, abyste mohli dodávat a zpeněžovat svého operátora VLA, což znamená, že pokud vyškolíte efektivní operátory, můžete mít další zdroje příjmů
✅ Závěrečné myšlenky
Myslím, že v příštím roce budeme svědky masivního rozvoje v oblasti VLA. Viděli jsme, jak rychle se LLM vyvíjejí, je to jen pár let, co byl GPT-1 spuštěn. Robotika a modely vidění se velmi pravděpodobně stanou horkým příběhem v jednom bodě tohoto cyklu a já bych rád byl umístěn brzy
Jo a už jsem zmínil, že spoluzakladatelé jsou z her 👀 Hugging Face a Elixir
Poznámka: Slappjakke má velké $CODEC tašky, a toto je jeden z těch případů, kdy jsem se při psaní tohoto vlákna dostal ještě více býčí a přidal ještě více
To jako vždy není finanční poradenství a vysoce riziková investice, takže si udělejte vlastní průzkum.
Zobrazit originál



8,15 tis.
100
Obsah na této stránce poskytují třetí strany. Není-li uvedeno jinak, společnost OKX není autorem těchto informací a nenárokuje si u těchto materiálů žádná autorská práva. Obsah je poskytován pouze pro informativní účely a nevyjadřuje názory společnosti OKX. Nejedná se o doporučení jakéhokoli druhu a nemělo by být považováno za investiční poradenství ani nabádání k nákupu nebo prodeji digitálních aktiv. Tam, kde se k poskytování souhrnů a dalších informací používá generativní AI, může být vygenerovaný obsah nepřesný nebo nekonzistentní. Další podrobnosti a informace naleznete v připojeném článku. Společnost OKX neodpovídá za obsah, jehož hostitelem jsou externí weby. Držená digitální aktiva, včetně stablecoinů a tokenů NFT, zahrnují vysokou míru rizika a mohou značně kolísat. Měli byste pečlivě zvážit, zde je pro vás obchodování s digitálními aktivy nebo jejich držení vhodné z hlediska vaší finanční situace.