Oto najnowszy Digest Ritual Research, newsletter obejmujący najnowsze prace w świecie LLM-ów oraz na styku prywatności, AI i zdecentralizowanych protokołów. W tym tygodniu prezentujemy edycję ICML, obejmującą niektóre z wielu prac, które nam się podobały na konferencji.
Rzuć kostką i spójrz, zanim skoczysz: Przekraczanie kreatywnych granic przewidywania następnego tokena. W tym artykule badane są kreatywne granice przewidywania następnego tokena w dużych modelach językowych przy użyciu "minimalnych" otwartych zadań algorytmicznych w grafach.
Patrzą na to przez dwa kreatywne obiektywy: kombinacyjny i eksploracyjny. Modele trenowane na następnych tokenach są w dużej mierze mniej kreatywne i zapamiętują znacznie więcej niż te wielotokenowe. Eksplorują również warunkowanie nasion jako metodę wytwarzania znaczącej różnorodności w generacjach LLM.
rStar-Math: Małe LLM-y mogą opanować rozumowanie matematyczne dzięki samorozwijającemu się głębokiemu myśleniu Niniejszy artykuł wykorzystuje samorozwijające się dostrajanie, aby poprawić jakość danych i stopniowo udoskonalać model nagrody procesu za pomocą MCTS i małych LMs.
Wykorzystuje proces samoevolucji, który zaczyna się od małych, wygenerowanych zweryfikowanych rozwiązań i iteracyjnie trenuje lepsze modele. Synteza danych odbywa się z użyciem kodu wzbogaconego o Chain of Thought. Poprawia Qwen2.5-Math-7B z 58,8% do 90,0% oraz Phi3-mini-3.8B z 41,4% do 86,4%.
Szkolenie Ogólnie Ciekawego Agenta Niniejszy artykuł przedstawia Paprykę, metodę szkolenia LLM-ów, aby stały się ogólnymi decydentami, którzy potrafią rozwiązywać nowe zadania w trybie zero-shot. Szkolą się na różnorodnych grupach zadań, aby nauczyć się zbierania informacji i podejmowania decyzji.
RL dla LLM-ów koncentruje się na interakcjach jednorazowych, więc często działają suboptymalnie w przypadku sekwencyjnego podejmowania decyzji w interakcjach wieloetapowych na różnych horyzontach czasowych. Papryka generuje różnorodne trajektorie przy użyciu wysokotemperaturowego próbkowania i uczy się na podstawie udanych.
Jak duże modele językowe uzyskują swoją moc (prawa) Niniejszy artykuł bada koncepcję praw mocy w LLM i dostarcza matematycznego ramy do zrozumienia, jak i dlaczego wydajność modeli językowych poprawia się wraz ze wzrostem mocy obliczeniowej wnioskowania.
CVE-Bench: Benchmark dla zdolności agentów AI do wykorzystywania Ta praca wprowadza benchmark cyberbezpieczeństwa w rzeczywistym świecie, najpierw tworząc systematyczny piaskownicę. Dla każdej luki w zabezpieczeniach tworzą kontenery zaprojektowane do hostowania aplikacji z ujawnionymi lukami.
Następnie wprowadzają CVE-Bench, pierwszy rzeczywisty benchmark cyberbezpieczeństwa dla agentów LLM. W CVE-Bench zbierają 40 powszechnych luk w zabezpieczeniach i ekspozycji (CVE) w Krajowej Bazie Danych Luk w Zabezpieczeniach.
Inne dokumenty, które nam się podobały: - Agenci AI potrzebują uwierzytelnionej delegacji - LLM-SRBench: Benchmark dla odkrywania równań naukowych z LLM-ami - Uczenie maszynowe spotyka kombinatorykę algebraiczną - Skalowanie obliczeń w czasie testu bez weryfikacji lub RL jest suboptymalne
Śledź nas @ritualdigest, aby uzyskać więcej informacji na temat wszystkiego, co związane z badaniami nad kryptowalutami i AI, oraz @ritualnet, aby dowiedzieć się więcej o tym, co buduje Ritual.
4,08K