Bantu diri Anda sendiri dan baca penjelasan Trissy tentang mengapa @codecopenflow adalah salah satu taruhan terbaik untuk Operator AI OpenAI baru saja merilis agen Operator mereka, jadi jelas bahwa yang besar juga mengerjakan VLA Masih berisiko tinggi, tetapi stratosfer adalah atap fooking untuk yang satu ini
Trissy
Trissy18 Jul, 16.10
OpenAI baru saja mengkonfirmasi tesis bintang utara saya untuk AI hari ini dengan merilis agen operator mereka. Ini bukan hanya tesis panduan saya untuk $CODEC, tetapi setiap investasi AI lain yang saya lakukan, termasuk yang dari awal tahun selama AI mania. Ada banyak diskusi dengan Codec sehubungan dengan Robotika, sementara vertikal itu akan segera memiliki narasinya sendiri, alasan yang mendasari saya sangat optimis pada Codec sejak hari 1 adalah karena bagaimana arsitekturnya memberi daya pada agen operator. Orang-orang masih meremehkan berapa banyak pangsa pasar yang dipertaruhkan dengan membangun perangkat lunak yang berjalan secara mandiri, mengungguli pekerja manusia tanpa perlu petunjuk atau pengawasan terus-menerus. Saya telah melihat banyak perbandingan dengan $NUIT. Pertama-tama saya ingin mengatakan bahwa saya adalah penggemar berat dari apa yang dibangun Nuit dan tidak mengharapkan apa-apa selain kesuksesan mereka. Jika Anda mengetik "nuit" ke dalam telegram saya, Anda akan melihat bahwa pada bulan April saya mengatakan bahwa jika saya harus memegang satu koin selama beberapa bulan, itu akan menjadi Nuit karena tesis operator saya. Nuit adalah proyek operator yang paling menjanjikan di atas kertas, tetapi setelah penelitian ekstensif, saya menemukan arsitektur mereka tidak memiliki kedalaman yang diperlukan untuk membenarkan investasi besar atau menempatkan reputasi saya di belakangnya. Dengan pemikiran ini, saya sudah menyadari kesenjangan arsitektur dalam tim agen operator yang ada dan secara aktif mencari proyek yang mengatasinya. Tak lama setelah Codec muncul (berkat @0xdetweiler bersikeras saya melihat lebih dalam ke dalamnya) dan inilah perbedaan antara keduanya: $CODEC vs $NUIT Arsitektur Codec dibangun di tiga lapisan; Mesin, Sistem, dan Intelijen, yang memisahkan infrastruktur, antarmuka lingkungan, dan logika AI. Setiap agen Operator di Codec berjalan di VM atau kontainernya sendiri yang terisolasi, memungkinkan performa mendekati asli dan isolasi kesalahan. Desain berlapis ini berarti komponen dapat diskalakan atau berkembang secara independen tanpa merusak sistem. Arsitektur Nuit mengambil jalan yang berbeda dengan menjadi lebih monolitik. Tumpukan mereka berkisar pada agen browser web khusus yang menggabungkan penguraian, penalaran AI, dan tindakan. Artinya, mereka mengurai halaman web secara mendalam menjadi data terstruktur untuk dikonsumsi AI dan mengandalkan pemrosesan cloud untuk tugas AI yang berat. Pendekatan Codec untuk menyematkan model Vision-Language-Action (VLA) yang ringan dalam setiap agen berarti codec dapat berjalan sepenuhnya lokal. Yang tidak memerlukan ping konstan kembali ke cloud untuk instruksi, memotong latensi dan menghindari ketergantungan pada waktu aktif dan bandwidth. Agen Nuit memproses tugas dengan terlebih dahulu mengubah halaman web menjadi format semantik dan kemudian menggunakan otak LLM untuk mencari tahu apa yang harus dilakukan, yang meningkat dari waktu ke waktu dengan pembelajaran penguatan. Meskipun efektif untuk otomatisasi web, alur ini bergantung pada pemrosesan AI sisi cloud yang berat dan struktur halaman yang telah ditentukan sebelumnya. Kecerdasan perangkat lokal Codec berarti keputusan terjadi lebih dekat dengan data, mengurangi overhead dan membuat sistem lebih stabil terhadap perubahan tak terduga (tidak ada skrip rapuh atau asumsi DOM). Operator codec mengikuti loop persepsi-pikir-bertindak terus menerus. Lapisan mesin mengalirkan lingkungan (misalnya aplikasi langsung atau umpan robot) ke lapisan kecerdasan melalui saluran yang dioptimalkan lapisan sistem, memberikan AI "mata" pada keadaan saat ini. Model VLA agen kemudian menafsirkan visual dan instruksi bersama-sama untuk memutuskan suatu tindakan, yang dijalankan oleh lapisan Sistem melalui peristiwa keyboard/mouse atau kontrol robot. Perulangan terintegrasi ini berarti beradaptasi dengan acara langsung, bahkan jika UI bergeser, Anda tidak akan memutus alur. Untuk menempatkan semua ini dalam analogi yang lebih sederhana, pikirkan operator Codec seperti karyawan mandiri yang beradaptasi dengan kejutan di tempat kerja. Agen Nuit seperti karyawan yang perlu berhenti sejenak, menjelaskan situasinya kepada supervisor melalui telepon, dan menunggu instruksi. Tanpa terlalu banyak lubang kelinci teknis, ini akan memberi Anda gambaran tingkat tinggi tentang mengapa saya memilih Codec sebagai taruhan utama saya pada Operator. Ya, Nuit mendapat dukungan dari YC, tim bertumpuk dan github tingkat S. Meskipun arsitektur Codec telah dibangun dengan mempertimbangkan penskalaan horizontal, artinya Anda dapat menyebarkan ribuan agen secara paralel tanpa memori bersama atau konteks eksekusi antar agen. Tim Codec juga bukan pengembang biasa. Arsitektur VLA mereka membuka banyak kasus penggunaan yang tidak mungkin dilakukan dengan model agen sebelumnya karena melihat melalui piksel, bukan tangkapan layar. Saya bisa melanjutkan, tetapi saya akan menyimpannya untuk posting mendatang.
1,91K