Chủ đề thịnh hành
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
một rò rỉ alpha khác. cùng một kỹ thuật mà chúng tôi đã sử dụng cho KernelBench. đó là một phương pháp phổ quát ở dạng đơn giản nhất.
các ví dụ là tất cả những gì bạn cần: có một kết quả tốt hoặc một cải tiến đơn lẻ, thêm vào ngữ cảnh, có thêm nhiều kết quả tốt với ngữ cảnh được cải thiện, thêm những điều đó vào ngữ cảnh, ad inf…


11:19 22 thg 7
Gần đây, OpenAI và Google đã đạt được Huy chương Vàng IMO với các mô hình thử nghiệm mới của họ.
Nhưng đội ngũ của chúng tôi đã đạt được cùng một cấp độ chỉ với o4-mini-high và các hệ thống đại lý của chúng tôi. Và bây giờ chúng tôi đang mở mã nguồn cho nó.
Đặc biệt, chúng tôi đã có những cải tiến điên rồ với các tiêu chuẩn USAMO. Điểm cơ bản gần như là 0 nhưng đại lý của chúng tôi đạt trung bình 90%.
Chúng tôi cũng có thể chứng minh lý thuyết các tài liệu arxiv gần đây chỉ bằng cách đưa ra ý tưởng nghiên cứu chính.

không có lý do gì để đào tạo các mô hình nhỏ thực sự... bạn sẽ tốt hơn nếu tìm chương trình lý tưởng để cung cấp cho những máy lớn nhất.
nếu bạn muốn phân phối đầu ra tốt nhất, bạn cần tìm phân phối đầu vào lý tưởng, giống như thực hành.
bạn có thể đạt được điều đó từ con số không miễn là bạn có cách để xếp hạng các đầu ra của mình.
kỹ thuật của những người này có vẻ phức tạp hơn mức cần thiết, có thể đơn giản hơn nhiều.
Thế hệ đầu tiên của KernelBench trên o3-mini. Chúng tôi chỉ gọi điều này là "cải thiện bản thân."


30 thg 4, 2025
we have an unverified SOTA result on KernelBench with o3-mini and an evolutionary examples tape: 208/250 claimed speedups, including 3 for Level 4 (prev untouched).
would be grateful for any help reviewing the optimized KernelBench kernels at .
thank you to @anneouyang and Stanford’s @ScalingIntelLab for agreeing to review them.

2,9K
Hàng đầu
Thứ hạng
Yêu thích