Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Jasper
Medgründer og administrerende direktør @Hyperbolic_Labs. eks-@avax og eks-@citsecurities. Fullførte matematikk PhD i 2 år @UCBerkeley. Gullmedaljevinner i matematikkolympiaden. Høyeste utmerkelse @PKU1898
Vi kan være på vei inn i en plottvri i OpenAI vs. DeepMind IMO-sagaen.
Så nettopp et innlegg fra Joseph Myers (involvert i matematikkolympiaden siden 1992): IMO-komiteen skal ha bedt AI-laboratorier om ikke å publisere resultater før 7 dager etter avslutningsseremonien – av respekt for menneskelige deltakere (se innlegget mitt i går) og sannsynligvis for å gi tid til riktig verifisering av AI-innsendinger og formater.
Ifølge Joseph samarbeidet ikke OpenAI med IMO for å teste modellen deres, og ingen av de 91 offisielle IMO-koordinatorene var involvert i å gradere løsningene. I mellomtiden ser det ut til at DeepMind følger reglene og tålmodig venter på sin tur.
For kontekst:
IMO har 6 problemer, hver verdt 7 poeng. Årets gullgrense er 35 poeng. Selv et lite fradrag kan slå OpenAI ned til sølv. Og fra min lesning av deres skriverier, kan noen deler reise spørsmål - og muligens koste poeng.
Terence Tao påpekte også at selv om problemene forblir de samme, er testformater viktige. En student som ikke ville fått en bronse under standardforhold, kan finne gull med et modifisert oppsett – noe som reiser reelle spørsmål om hva «å løse IMO» betyr for AI.
Neste uke kan bli krydret. Følg med.


87,1K
Har nettopp fått fri fra jobb og prøvd Grok-4 på et topologiproblem. Det tok 9 minutter å tenke og ga deretter selvsikkert et rent, plausibelt, men helt feil svar 😅
Ikke tro at denne kvalifiserer som «dyktig fiendtlig». AI-modeller knuser benchmarks – men fortsatt en lang vei frem for ekte matematikk-AGI.



Elon Musk10. juli, 16:47
Grok 4 er på det punktet hvor den i hovedsak aldri tar feil av matematikk/fysikk-eksamensspørsmål, med mindre de er dyktig kontradiktoriske.
Den kan identifisere feil eller tvetydigheter i spørsmål, og deretter fikse feilen i spørsmålet eller svare på hver variant av et tvetydig spørsmål.
662,99K
Grok fikk full poengsum på AIME 🤯 Vi trenger definitivt en bedre matematisk benchmark for AI nå


xAI10. juli, 12:01
Vi introduserer Grok 4, verdens kraftigste AI-modell. Se direktesendingen nå:
2,98K
Fremtiden for AI er samarbeid

Yuchen Jin9. juli, 06:09
Sam Altman ble spurt om hva han følte om at Zuck og Meta krypskytter OpenAIs topptalent.
«Greit... bra...» sa han.
Bak Jony Ive-designede briller kunne jeg ikke se øynene hans. Men jeg kunne føle smerten.
Det er ikke vanskelig for Zuck å stjele OpenAI-talenter, ikke bare fordi han har pengene, men fordi åpen kildekode AI oppfyller det originale OpenAI-oppdraget.
1,44K
Topp
Rangering
Favoritter
Trendende onchain
Trendende på X
Nylig toppfinansiering
Mest lagt merke til