Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Shane Gu
Bliźnięta - RL, CoT, wielojęzyczność. Starszy personel RS @GoogleDeepMind MTV. 🇯🇵 -urodzony 🇨🇳🇨🇦 . np.: @OpenAI (JP: @shanegJP)
Użytkownik Shane Gu udostępnił ponownie
🚨 Matematyka olimpijska + AI:
Uruchomiliśmy Google’a Gemini 2.5 Pro na świeżych problemach IMO 2025. Przy starannym podpowiadaniu i projektowaniu pipeline'u, rozwiązał 5 z 6 — to niezwykłe w przypadku zadań wymagających głębokiego wglądu i kreatywności.
Model mógłby zdobyć złoto! 🥇
#AI #Matematyka #LLMs #IMO2025
116,76K
Azjaci: naprawimy nasz własny bałagan

Patrick Shen18 lip, 03:03
Na ich premierze Cluely twierdził, że zlikwiduje 9 branż.
Jesteśmy tutaj, aby zlikwidować tylko jedną: oszustwa.
Poznaj Truely — narzędzie open-source, które w czasie rzeczywistym oznacza wywiady wspomagane przez AI. Działa z Zoom, Meets, Teams i innymi.
Przyszłość internetowych wywiadów jest tutaj.
1,98K
Aby walczyć z Azjatami, potrzebujesz Azjatów

Patrick Shen18 lip, 03:03
Na ich premierze Cluely twierdził, że zlikwiduje 9 branż.
Jesteśmy tutaj, aby zlikwidować tylko jedną: oszustwa.
Poznaj Truely — narzędzie open-source, które w czasie rzeczywistym oznacza wywiady wspomagane przez AI. Działa z Zoom, Meets, Teams i innymi.
Przyszłość internetowych wywiadów jest tutaj.
225
Dlaczego zespoły przedtreningowe i potreningowe muszą się dogadywać

David Mizrahi18 lip, 06:21
Cieszymy się, że możemy podzielić się naszą nową pracą: „Modele językowe poprawiają się, gdy dane do wstępnego uczenia pasują do docelowych zadań”
Tak, to brzmi oczywiście (i tak jest!), ale zazwyczaj dzieje się to tylko pośrednio i niejawnie: intuicyjnie wybieraj dane → benchmark → udoskonalaj → powtarzaj.
Zastanawialiśmy się: co się stanie, jeśli jawnie dopasujemy dane do wstępnego uczenia do benchmarków? Wynik to bardzo proste podejście, które daje 2x+ mnożniki obliczeniowe w porównaniu do silnych bazowych modeli i daje nam zasadniczy sposób na badanie, jak wybory benchmarków kształtują (i ograniczają!) możliwości modeli.
Bonus: obszerne prawa skalowania z treningu 500+ modeli, które ujawniają, jak optymalny wybór danych ewoluuje w miarę skalowania modeli.
🧵 (1/14)

2,65K
Zespół Grok internalizuje operacje związane z danymi ludzkimi (np. rekrutacja na stanowisko tutora AI dla Japończyków). Prawdopodobnie więcej laboratoria na granicy myśli o posiadaniu i zarządzaniu pracą z danymi.

Koki Ikeda | SoftBank15 lip, 22:12
"xAI," które rozwija Grok, poszukuje japońskiego nauczyciela AI.
Praca polega na etykietowaniu i adnotowaniu japońskich tekstów, danych audio i wideo. Możesz pracować całkowicie zdalnie z Japonii, a wynagrodzenie jest na wysokim poziomie godzinowym, odpowiadającym amerykańskim standardom.
🗣️ Rodzimy mówca języka japońskiego
🧑💻 Całkowicie zdalnie
💰 Stawka godzinowa od 35 do 65 USD (5200-9600 jenów)
🕐 Umowa na 6 miesięcy (z możliwością przedłużenia)

8,36K
Zespół Grok internalizuje operacje związane z danymi ludzkimi (np. rekrutacja na stanowisko tutora AI dla języka japońskiego). Biorąc pod uwagę przejście na Scale AI, prawdopodobnie więcej laboratoriów na granicy zacznie myśleć o posiadaniu i zarządzaniu pracą z danymi.

Koki Ikeda | SoftBank15 lip, 22:12
"xAI," które rozwija Grok, poszukuje japońskiego nauczyciela AI.
Praca polega na etykietowaniu i adnotowaniu japońskich tekstów, danych audio i wideo. Możesz pracować całkowicie zdalnie z Japonii, a wynagrodzenie jest na wysokim poziomie godzinowym, odpowiadającym amerykańskim standardom.
🗣️ Rodzimy mówca języka japońskiego
🧑💻 Całkowicie zdalnie
💰 Stawka godzinowa od 35 do 65 USD (5200-9600 jenów)
🕐 Umowa na 6 miesięcy (z możliwością przedłużenia)

300
Jeśli jesteś na ICML i interesujesz się RL lub wielojęzycznością, przywitaj się z @marafinkels! Pracowaliśmy blisko przez ostatnie kilka miesięcy, aby wdrożyć metodę RL, która rozwiązuje krytyczny problem jakości Gemini. Ma również świetne pomysły badawcze! Mam nadzieję, że Gemini x akademia pozostaną w kontakcie.

Mara Finkelstein27 lis 2024
LLM-y są zazwyczaj oceniane za pomocą automatycznych metryk na standardowych zestawach testowych, ale metryki i zestawy testowe są opracowywane niezależnie. To rodzi kluczowe pytanie: Czy możemy zaprojektować automatyczne metryki, które będą szczególnie skuteczne na zestawach testowych, które priorytetowo traktujemy? Odpowiedź: Tak!

5,73K
Użytkownik Shane Gu udostępnił ponownie
Nowy post na blogu o asymetrii weryfikacji i "prawie weryfikatora":
Asymetria weryfikacji – idea, że niektóre zadania są znacznie łatwiejsze do zweryfikowania niż do rozwiązania – staje się ważnym pomysłem, ponieważ mamy RL, które w końcu działa ogólnie.
Świetnymi przykładami asymetrii weryfikacji są takie rzeczy jak łamigłówki sudoku, pisanie kodu dla strony internetowej takiej jak Instagram oraz problemy BrowseComp (zajmuje ~100 stron internetowych, aby znaleźć odpowiedź, ale łatwo to zweryfikować, gdy już masz odpowiedź).
Inne zadania mają bliską symetrię weryfikacji, jak sumowanie dwóch 900-cyfrowych liczb lub niektóre skrypty przetwarzania danych. Jeszcze inne zadania są znacznie łatwiejsze do zaproponowania wykonalnych rozwiązań niż do ich weryfikacji (np. weryfikacja faktów długiego eseju lub stwierdzenie nowej diety, jak "jedz tylko bizon").
Ważną rzeczą do zrozumienia w kontekście asymetrii weryfikacji jest to, że można poprawić asymetrię, wykonując pewną pracę wcześniej. Na przykład, jeśli masz klucz odpowiedzi do problemu matematycznego lub jeśli masz przypadki testowe dla problemu Leetcode. To znacznie zwiększa zestaw problemów z pożądaną asymetrią weryfikacji.
"Prawo weryfikatora" stwierdza, że łatwość trenowania AI do rozwiązania zadania jest proporcjonalna do tego, jak weryfikowalne jest to zadanie. Wszystkie zadania, które można rozwiązać i łatwo zweryfikować, będą rozwiązane przez AI. Zdolność do trenowania AI do rozwiązania zadania jest proporcjonalna do tego, czy zadanie ma następujące cechy:
1. Obiektywna prawda: wszyscy zgadzają się, jakie są dobre rozwiązania
2. Szybka weryfikacja: każda dana odpowiedź może być zweryfikowana w kilka sekund
3. Skalowalna weryfikacja: wiele rozwiązań może być weryfikowanych jednocześnie
4. Niski szum: weryfikacja jest jak najbardziej skorelowana z jakością rozwiązania
5. Ciągła nagroda: łatwo jest ocenić jakość wielu rozwiązań dla jednego problemu
Jednym oczywistym przykładem prawa weryfikatora jest fakt, że większość benchmarków proponowanych w AI jest łatwa do weryfikacji i jak dotąd zostały rozwiązane. Zauważ, że praktycznie wszystkie popularne benchmarki w ciągu ostatnich dziesięciu lat spełniają kryteria #1-4; benchmarki, które nie spełniają kryteriów #1-4, miałyby trudności z zyskiwaniem popularności.
Dlaczego weryfikowalność jest tak ważna? Ilość uczenia się w AI, która zachodzi, jest maksymalizowana, gdy powyższe kryteria są spełnione; można wykonać wiele kroków gradientowych, gdzie każdy krok ma dużo sygnału. Szybkość iteracji jest kluczowa – to powód, dla którego postęp w świecie cyfrowym był znacznie szybszy niż postęp w świecie fizycznym.
AlphaEvolve z Google jest jednym z największych przykładów wykorzystania asymetrii weryfikacji. Skupia się na ustawieniach, które spełniają wszystkie powyższe kryteria i doprowadziło to do wielu postępów w matematyce i innych dziedzinach. Różni się to od tego, co robiliśmy w AI przez ostatnie dwie dekady, to nowy paradygmat, w którym wszystkie problemy są optymalizowane w ustawieniu, gdzie zbiór treningowy jest równy zbiorowi testowemu.
Asymetria weryfikacji jest wszędzie i ekscytujące jest rozważanie świata poszarpanej inteligencji, gdzie wszystko, co możemy zmierzyć, zostanie rozwiązane.

298,72K
Wpływowa praca, którą każdy może wykonać, to wykorzystanie LLM do prowadzenia dziennika i cyfryzacji jak największej części swojego przepływu pracy, CoT i inspiracji.
Inżynieria kontekstu w celu automatyzacji i wspomagania siebie w życiu i pracy.

Thariq15 lip, 05:51
Dzienniki i zadania do zrobienia
Mam kilka niestandardowych poleceń:
/polecenie dziennika, które utworzy nowy wpis w dzienniku na dany dzień.
/zadania polecenie, które pozwoli mi tworzyć nowe zadania do zrobienia lub oznaczać inne jako zakończone. Zadania do zrobienia są zorganizowane tematycznie w plikach, np. ‘
Claude często przeszukuje mój kod, projekty itp. w poszukiwaniu dodatkowego kontekstu, gdy dodaję zadanie do zrobienia, co jest bardzo pomocne.
801
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi