Noam Brown z openAI potwierdził 2 kluczowe punkty: 1) model, który osiągnął złoty poziom wydajności IMO, jest uniwersalny — nie został dostosowany do matematyki i osiągnął to bez użycia narzędzi. 2) openAI opracowało nowe techniki, które znacznie poprawiają LLM. Czy może to być nowe przełomowe osiągnięcie w RL lub poprawa algorytmu?
27,88K