xAI ha lanciato Grok 4 senza alcuna documentazione sui test di sicurezza. Questo è sconsiderato e va contro le migliori pratiche del settore seguite da altri importanti laboratori di intelligenza artificiale. Se xAI vuole essere un sviluppatore di intelligenza artificiale all'avanguardia, dovrebbe comportarsi come tale. 🧵
Ma xAI è decisamente fuori linea rispetto ad altri sviluppatori di intelligenza artificiale all'avanguardia, e questo deve essere evidenziato. Anthropic, OpenAI e le pratiche di rilascio di Google hanno dei problemi. Ma almeno fanno qualcosa, qualsiasi cosa per valutare la sicurezza prima del rilascio e documentare i risultati. xAI non lo fa.
Cosa c'è in una scheda di sistema? Per cominciare, le valutazioni delle capacità pericolose (DC). Queste misurano quanto bene il modello può assistere in compiti che potrebbero rappresentare una minaccia per la sicurezza nazionale (come l'hacking o la sintesi di armi biologiche). Ad esempio, queste sono le valutazioni DC biologiche riportate nella scheda di sistema di Claude 4.
648,16K