Der traurige Roboter in Grok 4. Das zeigt erneut, wie vorsichtig man mit übertriebenen Behauptungen aus geschlossenen Veröffentlichungen umgehen muss, die das Übliche sagen: "Es ist so vorbei". Testkontamination, die nicht überprüft werden kann, lässt Benchmarks großartig aussehen, aber bei neuartigen Problemen kommt der Absturz.
17,07K