Co jakiś czas pojawia się unikalny projekt, który ma szansę na własny wyścig. AI w większości przypadków ogranicza się do terminali w stylu chatgpt oraz kreatywnej generacji obrazów/wideo. Od kilku miesięcy słyszymy, że jesteśmy na skraju tego, że wszyscy stracą pracę z powodu AI. Tak, zwiększyło to wydajność wszystkich dziesięciokrotnie, ale nie zastąpiliśmy jeszcze w pełni ludzi w miejscu pracy. Dlaczego? Dominujące dzisiaj asystenty AI, od chatbotów w przeglądarkach po eksperymentalne ramy „agentów”, są silne w rozmowie, ale strukturalnie ograniczone w wykonaniu. Zazwyczaj polegają na przeglądarce lub prostym środowisku skryptowym do wykonywania zadań. Chociaż działa to w przypadku pozyskiwania informacji lub podstawowej automatyzacji sieci, ci agenci mają trudności z złożonymi, wieloetapowymi procesami i często się psują, gdy coś odbiega od ich ograniczonej ścieżki. Obecne agenty AI zawodzą, ponieważ brakuje im pamięci trwałej i tolerancji na błędy; w obliczu nieoczekiwanych błędów nie mogą się odzyskać ani dostosować, często zatrzymując się lub wchodząc w nieskończoną pętlę. Większość działa w ograniczonych środowiskach opartych na przeglądarkach i nie ma dostępu do pełnego zakresu oprogramowania dla przedsiębiorstw, pozostawiając rutynowe prace poza ich zasięgiem. Dlatego nie widzieliśmy, aby AI zastępowało nudne role w firmach, takie jak wsparcie klienta i administracja. Nie z powodu braku możliwości w samych modelach AI, ale dlatego, że ramy wokół nich nie są wystarczająco niezawodne dla krytycznych przepływów pracy. Co jest potrzebne? Przemyślana architektura systemu. Taka, która zajmuje się tolerancją na błędy, pamięcią, dostępem, izolacją i wydajnością w jednej ramie. Zamiast zatrzymywać się przy pierwszym nieoczekiwanym wejściu, powinny wychwytywać błędy, dostosowywać się i próbować różnych metod, tak jak ludzie, gdy coś idzie nie tak. Aby skalować AI w rzeczywistych przepływach pracy, potrzebuje pamięci trwałej i śledzenia zadań, aby działać niezawodnie przez długie okresy. Potrzebują również pełnego dostępu do ekosystemu, poza narzędziami przeglądarki, aby korzystać z tego samego oprogramowania, co ludzie, w tym aplikacji desktopowych. Bez bezpiecznej izolacji agenci nie mogą działać bezpiecznie w dedykowanych środowiskach, co sprawia, że wdrożenie na dużą skalę jest ryzykowne z powodu potencjalnych zakłóceń między systemami. Jeśli chcą, aby ich czas działania był spójny i wydajny, będą potrzebować również inteligentnego zarządzania zasobami, które traktuje komputery jak żywe, funkcjonujące ciało. Dla tych, którzy połączyli kropki, niedawne wydanie Fabric od @Codecopenflow łączy to wszystko, dając agentom AI niezawodne, w pełni dedykowane systemy operacyjne (OS), które łączą moc poznawczą zaawansowanych modeli z infrastrukturą, której potrzebują, aby działać jak niezawodni cyfrowi pracownicy. Fabric sam w sobie mógłby być całkowicie niezależnym oprogramowaniem licencjonowanym. Przekształca agentów z ograniczonych skryptów przeglądarkowych w autonomicznych operatorów z pełnym dostępem na poziomie OS. Podobnie jak agregator DEX kieruje najefektywniejszą cenę do Ciebie, Fabric jest warstwą routującą, która obsługuje głęboką architekturę Codec. Wymieniasz swoje potrzeby dotyczące CPU, GPU, pamięci i preferencje regionalne. Oznacza to znalezienie najtańszych serwerów, takich jak AWS/google cloud lub zasobów GPU z Render/IO net. Codec zapewnia czyste SDK i API do pełnej kontroli nad tymi operatorami AI. Firma może zintegrować agentów Codec z istniejącym pipeline'em oprogramowania (na przykład uruchomić agenta do obsługi żądania użytkownika, a następnie go wyłączyć) bez potrzeby wynajdowania swojej infrastruktury na nowo. W wsparciu klienta agenci mogą zarządzać całymi przepływami pracy, rozwiązywaniem zapytań, aktualizacjami CRM, zwrotami, redukując koszty pracy o nawet 90%, jednocześnie poprawiając spójność i czas działania. W operacjach biznesowych Codec automatyzuje powtarzalne procesy administracyjne, takie jak obsługa faktur, aktualizacje HR i roszczenia ubezpieczeniowe, szczególnie w sektorach o dużym wolumenie, takich jak finanse i opieka zdrowotna. Skupiając się na w pełni izolowanym, wieloaplikacyjnym środowisku dla każdego operatora AI, AI nie jest ograniczone przez krytyczne problemy z niezawodnością i integracją, które poprzednie ramy nie mogły rozwiązać. Zasadniczo przekształca infrastrukturę chmurową w elastyczną linię montażową dla pracowników AI. Każdemu "pracownikowi" przydzielane są odpowiednie narzędzia (aplikacje, OS, dostęp do danych) oraz uprząż bezpieczeństwa (izolacja + obsługa błędów), aby wykonać swoją pracę. Każda poprawa w modelach AI (GPT-5 itd.) tylko zwiększa wartość platformy Codec, ponieważ lepsze "mózgi" mogą teraz być podłączane do tego silnego "ciała", aby osiągnąć jeszcze bardziej złożone zadania. Codec jest agnostyczny modelowo (działa z każdym modelem AI), więc ma szansę skorzystać z ogólnego postępu AI, nie będąc związanym z losem jednego dostawcy. Jesteśmy w punkcie zwrotnym podobnym do wczesnych dni chmury obliczeniowej. Tak jak firmy, które dostarczały platformy dla chmury (wirtualizacja, infrastruktura AWS itd.) stały się niezbędne dla IT w przedsiębiorstwie, firma, która dostarczy platformę do działania agentów AI, zdobędzie ogromny rynek. OpenAI już wydało w pełni agentowy terminal kodowania w chmurze o nazwie Codex. Codex będzie mini lokalną wersją Codex, którą można uruchomić na swoim komputerze, ale co ważniejsze, główny model Codex będzie w chmurze z własnym komputerem. Współzałożyciel OpenAI uważa, że najbardziej udane firmy w przyszłości będą miały połączone te dwa typy architektury. Brzmi znajomo. Co dalej? Zamiast mówić, co będzie dalej, może lepiej wskaźę na to, czego jeszcze nie widzieliśmy: - Brak potwierdzonej użyteczności tokenów - Brak zachęt - Brak podstawowej mapy drogowej - Brak demonstracji - Brak rynku - Minimalne partnerstwa Biorąc pod uwagę, ile jest w planach, wraz z nowymi stronami internetowymi, zaktualizowanymi dokumentami, głębszymi pulami płynności, kampaniami społecznościowymi/marketingowymi i robotyką. Codec nie ujawnił jeszcze wielu kart. Oczywiście mogą istnieć bardziej gotowe produkty oparte na przeglądarkach dostępne na rynku, chociaż jak długo zanim staną się przestarzałe? To jest inwestycja w kierunek AI i podstawową architekturę, która zastąpi ludzkie siły robocze. Codec zakodował.
Trissy
Trissy13 maj 2025
Środowiska wirtualne dla agentów operatorów: $CODEC Moja główna teza związana z eksplozją sztucznej inteligencji zawsze koncentrowała się na wzroście liczby agentów operatorskich. Aby jednak ci agenci odnieśli sukces, wymagają głębokiego dostępu do systemu, co skutecznie zapewnia im kontrolę nad komputerem osobistym i poufnymi danymi, co stwarza poważne obawy dotyczące bezpieczeństwa. Widzieliśmy już, jak firmy takie jak OpenAI i inni giganci technologiczni radzą sobie z danymi użytkowników. Podczas gdy większość ludzi nie dba o to, osoby, które mogą odnieść największe korzyści z agentów operatorów, 1% najlepszych absolutnie to robi. Osobiście nie ma szans, żebym dał firmie takiej jak OpenAI pełny dostęp do mojej maszyny, nawet jeśli oznacza to 10× wzrost produktywności. Dlaczego więc kodek? Architektura kodeka koncentruje się na uruchamianiu izolowanych, dostępnych na żądanie "pulpitów w chmurze" dla agentów AI. Jego rdzeniem jest usługa orkiestracji oparta na platformie Kubernetes (o nazwie kodowej Captain), która aprowizuje lekkie maszyny wirtualne (VM) w zasobnikach Kubernetes. Każdy agent otrzymuje własne izolowane środowisko na poziomie systemu operacyjnego (pełne wystąpienie systemu operacyjnego Linux), w którym może uruchamiać aplikacje, przeglądarki lub dowolny kod, całkowicie odizolowany od innych agentów i hosta. Kubernetes obsługuje planowanie, automatyczne skalowanie i samonaprawianie tych zasobników agentów, zapewniając niezawodność i możliwość zwiększania/zmniejszania liczby instancji agentów w zależności od wymagań obciążenia Zaufane środowiska wykonawcze (TEE) są używane do zabezpieczania tych maszyn wirtualnych, co oznacza, że maszyna agenta może być kryptograficznie odizolowana, a jej pamięć i wykonanie mogą być chronione przed systemem operacyjnym hosta lub dostawcą chmury. Ma to kluczowe znaczenie w przypadku wrażliwych zadań: na przykład maszyna wirtualna działająca w enklawie może bezpiecznie przechowywać klucze API lub sekrety portfela kryptowalutowego. Gdy agent AI ("mózg" oparty na LLM) musi wykonać działania, wysyła żądania API do usługi Captain, która następnie uruchamia lub zarządza zasobnikiem VM agenta. Przepływ pracy: agent żąda maszyny, Captain (za pośrednictwem platformy Kubernetes) przydziela zasobnik i dołącza wolumin trwały (dla dysku maszyny wirtualnej). Agent może następnie połączyć się ze swoją maszyną wirtualną (za pośrednictwem bezpiecznego kanału lub interfejsu przesyłania strumieniowego) w celu wydania poleceń. Captain uwidacznia punkty końcowe dla agenta w celu wykonywania poleceń powłoki, przesyłania/pobierania plików, pobierania dzienników, a nawet tworzenia migawki maszyny wirtualnej w celu późniejszego przywrócenia. Taki projekt zapewnia agentowi pełny system operacyjny do pracy, ale z kontrolowanym, audytowanym dostępem. Ponieważ jest zbudowany na platformie Kubernetes, kodek może automatycznie skalować się w poziomie, jeśli 100 agentów potrzebuje środowisk, może zaplanować 100 zasobników w klastrze i obsługiwać awarie, ponownie uruchamiając zasobniki. Maszyna wirtualna agenta może być wyposażona w różne serwery MCP (np. "port USB" dla AI). Na przykład moduł Conductor kodeka to kontener, który uruchamia przeglądarkę Chrome wraz z serwerem MCP Microsoft Playwright do sterowania przeglądarką. Dzięki temu agent AI może otwierać strony internetowe, klikać linki, wypełniać formularze i zeskrobywać zawartość za pomocą standardowych wywołań MCP, tak jakby był to człowiek kontrolujący przeglądarkę. Inne integracje MCP mogą obejmować MCP systemu plików/terminala (aby umożliwić agentowi bezpieczne uruchamianie poleceń CLI) lub MCP specyficzne dla aplikacji (dla interfejsów API w chmurze, baz danych itp.). Zasadniczo Codec zapewnia "opakowania" infrastruktury (maszyny wirtualne, enklawy, sieć), dzięki czemu plany agentów wysokiego poziomu mogą być bezpiecznie wykonywane na rzeczywistym oprogramowaniu i sieciach. Przypadki użycia Automatyzacja portfela: Kodek może osadzać portfele lub klucze w maszynie wirtualnej chronionej przez TEE, umożliwiając agentowi AI interakcję z sieciami blockchain (handel na DeFi, zarządzanie aktywami kryptowalutowymi) bez ujawniania tajnych kluczy. Ta architektura umożliwia agentom finansowym onchain, którzy bezpiecznie realizują rzeczywiste transakcje, co byłoby bardzo niebezpieczne w typowej konfiguracji agenta. Slogan platformy wyraźnie wymienia obsługę "portfeli" jako kluczową funkcję. Agent mógłby, na przykład, uruchomić CLI dla portfela Ethereum w swojej enklawie, podpisywać transakcje i wysyłać je, mając pewność, że jeśli agent będzie się źle zachowywał, zostanie ograniczony do swojej maszyny wirtualnej, a klucze nigdy nie opuszczą TEE. Automatyzacja przeglądarki i stron internetowych: Agenci CodecFlow mogą kontrolować pełne przeglądarki internetowe na swojej maszynie wirtualnej. Przykład Conductor pokazuje, że agent uruchamia Chrome i przesyła strumieniowo jego ekran do Twitcha w czasie rzeczywistym. Za pomocą Playwright MCP agent może poruszać się po stronach internetowych, klikać przyciski i zeskrobywać dane, tak jak człowiek. Jest to idealne rozwiązanie do zadań takich jak skrobanie stron internetowych za loginami, zautomatyzowane transakcje internetowe lub testowanie aplikacji internetowych. Tradycyjne frameworki zwykle opierają się na wywołaniach API lub prostych skryptach przeglądarki headless; w przeciwieństwie do tego, CodecFlow może uruchomić prawdziwą przeglądarkę z widocznym interfejsem użytkownika, co ułatwia obsługę złożonych aplikacji internetowych (np. z ciężkimi wyzwaniami JavaScript lub CAPTCHA) pod kontrolą AI. Automatyzacja graficznego interfejsu użytkownika w świecie rzeczywistym (starsze systemy): Ponieważ każdy agent ma rzeczywisty system operacyjny dla komputerów stacjonarnych, może automatyzować starsze aplikacje z graficznym interfejsem użytkownika lub sesje pulpitu zdalnego, zasadniczo działając jak zrobotyzowana automatyzacja procesów (RPA), ale napędzana przez sztuczną inteligencję. Na przykład agent może otworzyć arkusz kalkulacyjny programu Excel na maszynie wirtualnej z systemem Windows lub interfejs ze starą aplikacją terminala, która nie ma interfejsu API. Witryna Codec wyraźnie wspomina o włączeniu "starszej automatyzacji". Otwiera to możliwość wykorzystania sztucznej inteligencji do obsługi oprogramowania, które nie jest dostępne za pośrednictwem nowoczesnych interfejsów API, co byłoby bardzo trudne lub niebezpieczne bez zamkniętego środowiska. Dołączona integracja z noVNC sugeruje, że agenci mogą być obserwowani lub kontrolowani przez VNC, co jest przydatne do monitorowania sztucznej inteligencji kierującej graficznym interfejsem użytkownika. Symulowanie przepływów pracy SaaS: Firmy często mają złożone procesy, które obejmują wiele aplikacji SaaS lub starszych systemów. Na przykład pracownik może pobrać dane z Salesforce, połączyć je z danymi z wewnętrznego systemu ERP, a następnie wysłać podsumowanie e-mailem do klienta. Kodek może umożliwić agentowi AI wykonanie całej tej sekwencji, faktycznie logując się do tych aplikacji za pomocą przeglądarki lub oprogramowania klienckiego na maszynie wirtualnej, podobnie jak zrobiłby to człowiek. Jest to jak RPA, ale zasilane przez LLM, który może podejmować decyzje i radzić sobie ze zmiennością. Co ważne, poświadczenia do tych aplikacji mogą być bezpiecznie dostarczane do maszyny wirtualnej (a nawet ujęte w TEE), dzięki czemu agent może z nich korzystać bez "widzenia" poświadczeń w postaci zwykłego tekstu lub ujawniania ich na zewnątrz. Może to przyspieszyć automatyzację rutynowych zadań zaplecza, jednocześnie zapewniając działowi IT, że każdy agent działa z najmniejszymi uprawnieniami i pełną możliwością audytu (ponieważ każda akcja na maszynie wirtualnej może być rejestrowana lub rejestrowana). Mapa drogowa - Uruchomienie publicznej wersji demonstracyjnej pod koniec miesiąca - Porównanie funkcji z innymi podobnymi platformami (brak konkurenta web3) - Integracja z TAO - Partnerstwo w zakresie dużych gier Jeśli chodzi o oryginalność, Codec jest zbudowany na fundamencie istniejących technologii, ale integruje je w nowatorski sposób do wykorzystania przez agentów AI. Idea izolowanych środowisk wykonawczych nie jest nowa (kontenery, maszyny wirtualne i TEE są standardem w przetwarzaniu w chmurze), ale zastosowanie ich do autonomicznych agentów AI z bezproblemową warstwą API (MCP) jest niezwykle nowatorskie. Platforma wykorzystuje otwarte standardy i narzędzia wszędzie tam, gdzie to możliwe: wykorzystuje serwery MCP, takie jak Playwright firmy Microsoft, do sterowania przeglądarką, zamiast wymyślać to koło na nowo, i planuje obsługiwać mikromaszyny wirtualne Firecracker firmy AWS w celu szybszej wirtualizacji. Rozwidlił również istniejące rozwiązania, takie jak noVNC dla komputerów stacjonarnych do przesyłania strumieniowego. Demonstracja, że projekt stoi na fundamentach sprawdzonej technologii (Kubernetes, sprzęt enklawy, biblioteki open-source), koncentrując swój oryginalny rozwój na logice kleju i orkiestracji ("sekretny sos" to sposób, w jaki to wszystko działa razem). Połączenie komponentów open source i nadchodzącej usługi w chmurze (zasugerowanej przez wzmiankę o narzędziu tokena $CODEC i publicznym dostępie do produktu) oznacza, że kodek będzie wkrótce dostępny w wielu formach (zarówno jako usługa, jak i samoobsługowy). Zespół Moyai: 15+ lat doświadczenia w programowaniu, obecnie lider rozwoju AI w Elixir Games. lil'km: 5+ lat programista AI, obecnie współpracujący z HuggingFace nad projektem LeRobot. HuggingFace to ogromna firma zajmująca się robotyką, a Moyai pracuje jako szef sztucznej inteligencji w elixir games (wspieranym przez Square Enix i solanafdn). Osobiście rozmawiałem z całym zespołem i naprawdę podoba mi się energia, którą wnoszą. Mój przyjaciel, który umieścił je na moim radarze, również spotkał się z nimi wszystkimi na Token2049 i miał tylko dobre rzeczy do powiedzenia. Końcowe przemyślenia Wciąż jest wiele do omówienia, które zachowam na przyszłe aktualizacje i posty na moim kanale Telegram. Od dawna uważam, że infrastruktura chmurowa to przyszłość dla agentów operatorów. Zawsze szanowałem to, co buduje Nuit, ale Codec jest pierwszym projektem, który pokazał mi przekonanie do full-stack, którego szukałem. Zespół to bez wątpienia inżynierowie z najwyższej półki. Otwarcie mówili, że marketing nie jest ich mocną stroną, co prawdopodobnie dlatego przeleciało to pod radarem. Będę z nimi ściśle współpracował, aby pomóc w kształtowaniu strategii GTM, która faktycznie odzwierciedla głębię tego, co budują. Przy kapitalizacji rynkowej wynoszącej 4 miliony dolarów i takim poziomie infrastruktury wydaje się znacznie niedoceniony. Jeśli uda im się dostarczyć użyteczny produkt, myślę, że może to z łatwością oznaczać początek kolejnego cyklu infra AI. Jak zawsze, wiąże się to z ryzykiem i chociaż w ciągu ostatnich kilku tygodni sprawdzałem zespół w ukryciu, żaden projekt nigdy nie jest całkowicie odporny na dywany. Cele cenowe? Dużo wyżej.
11,85K