Итак, все модели показывают худшие результаты, чем люди, на новых вопросах Международной математической олимпиады, и Grok-4 особенно плох в этом, даже с выбором лучших из нескольких? Невероятно!
478,07K