xAI meluncurkan Grok 4 tanpa dokumentasi pengujian keamanan mereka. Ini sembrono dan melanggar praktik terbaik industri yang diikuti oleh laboratorium AI besar lainnya. Jika xAI akan menjadi pengembang AI perbatasan, mereka harus bertindak seperti itu. 🧵
Tetapi xAI jauh dari garis relatif terhadap pengembang AI perbatasan lainnya, dan ini perlu disebutkan Praktik rilis Anthropic, OpenAI, dan Google memiliki masalah. Tetapi mereka setidaknya melakukan sesuatu, apa pun untuk menilai pra-penyebaran keselamatan dan mendokumentasikan temuan. xAI tidak.
Apa yang ada di kartu sistem? Pertama, kemampuan berbahaya (DC) berkembang. Ini mengukur seberapa baik model dapat membantu tugas-tugas yang dapat menimbulkan ancaman keamanan nasional (seperti meretas atau mensintesis senjata biologis). Misalnya ini adalah eval bio DC yang dilaporkan dalam kartu sistem Claude 4.
648,16K