Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Adam Wolff
Kod Claude'a @AnthropicAI 🤖
Zapalony kucharz, oddany śnieg, entuzjasta jogi
Claude Code, teraz dostępny na Windows.
Funkcje takie jak ta nie są efektowne, ale sprawiają, że Claude Code jest *tak* potężny. Chcemy, aby działał wszędzie tam, gdzie Ty.

Alex Albert15 lip, 03:07
Mamy dzisiaj kolejną dużą aktualizację dla Claude Code: jest teraz natywnie dostępny dla systemu Windows.

13,02K
"Podczas gdy konkurencja wydaje się być potężną siłą, współpraca jest jedyną siłą, która jest jeszcze potężniejsza."
@tomocchino ❤️

Ryan Vogel13 lip, 01:50
check out part one of our newest episode with @tomocchino from @vercel
(thanks again to vercel for letting us film at HQ)

10,19K
Claude Code jest tak konfigurowalny, ale funkcje są trudne do odkrycia. Wiele osób nie docenia mocy niestandardowych poleceń. Teraz mogą nawet osadzać wyniki bash!
Rzuć jeszcze raz okiem, jeśli jeszcze nie korzystasz z tych funkcji.

Alex Albert2 lip, 00:19
Przypominamy, że polecenia slash pozwalają na przechowywanie niestandardowych podpowiedzi jako plików Markdown i wywoływanie ich za pomocą /twoje-polecenie.
Dzięki tej aktualizacji możesz teraz:
- Wykonywać polecenia bash z poleceń slash
- Wzmiankować pliki dla kontekstu
- Włączyć rozszerzone myślenie za pomocą słów kluczowych w poleceniach

9,98K
Dzisiejsze ewaluacje są jak testy dekadę temu. Oczywiście ważne, ale też nie wiadomo dokładnie, jak i ile zainwestować.
To świetna rada, ale najważniejsze to spróbować. Jeśli Twój produkt zawiera sztuczną inteligencję i nie masz evals, budujesz zamek z piasku.

shyamal20 maj 2025
Rozpoczęcie pracy z evals nie wymaga zbyt wiele. Wzorzec, który zaobserwowaliśmy w przypadku małych zespołów, wygląda bardzo podobnie do programowania opartego na testach zastosowanego w inżynierii sztucznej inteligencji:
1/ Zakotwicz ewaluacje w historyjkach użytkownika, a nie w abstrakcyjnych testach porównawczych: usiądź ze swoim odpowiednikiem produktu / projektu i wymień konkretne rzeczy, które Twój model musi zrobić dla użytkowników. "dokładnie odpowiadaj na pytania dotyczące roszczeń ubezpieczeniowych", "generuj zapytania SQL z języka naturalnego". Dla każdego z nich zapisz 10–20 reprezentatywnych danych wejściowych i żądane wyjścia/zachowania. To jest twój pierwszy plik ewaluacyjny.
2/ Automatyzuj od pierwszego dnia, nawet jeśli jest kruchy. Oprzyj się pokusie, aby "po prostu to zobaczyć". Cóż, OK, wibracje nie skalują się zbyt długo. Opakuj swoje EVALS w kod. Możesz napisać prosty pytest, który zapętla się po przykładach, wywołuje model i zapewnia, że pojawiają się określone podciągi. To surowe, ale to dopiero początek.
3/ Użyj modelu, aby załadować trudniejsze dane ewaluacyjne. Ręczne pisanie setek przypadków brzegowych jest kosztowne. Możesz użyć modeli rozumowania (O3) do wygenerowania syntetycznych wariantów ("Give Me 50 Claim Questions Involving Fire Damage"), a następnie filtrować ręcznie. Przyspiesza to pokrycie bez poświęcania trafności.
4/ Nie gonij rankingów; Iteruj po tym, co się nie powiedzie. Gdy coś nie powiedzie się w środowisku produkcyjnym, nie poprzestawaj na naprawie monitu – dodaj przypadek niepowodzenia do zestawu ewaluacji. Z biegiem czasu Twój pakiet będzie się rozrastał, aby odzwierciedlić Twoje rzeczywiste tryby awarii. Od czasu do czasu dziel wartości ewaluacyjne (według długości danych wejściowych, ustawień regionalnych itp.), aby sprawdzić, czy cofasz się w określonych segmentach.
5/ Rozwijaj swoje wskaźniki w miarę dojrzewania produktu. W miarę skalowania będziesz potrzebować bardziej zniuansowanego oceniania (podobieństwo semantyczne, oceny ludzi, śledzenie kosztów/opóźnień). Zbuduj haki w uprzęży ewaluacyjnej, aby je rejestrować i zmieniać ich trendy w czasie. Uporządkuj swój interfejs użytkownika, aby zbierać niejawne informacje zwrotne (czy użytkownik kliknął "kciuk w górę"?) i przekazywać je z powrotem do swoich ocen offline.
6/ Uwidocznij evale. Umieść prosty pulpit nawigacyjny przed zespołem i interesariuszami pokazujący wskaźniki przejścia EVAL, koszty i opóźnienia. Używaj go w stand-upach. Stwarza to odpowiedzialność i pomaga osobom niezajmującym się uczeniem maszynowym uczestniczyć w dyskusjach na temat kompromisu.
Na koniec potraktuj evals jako podstawowy artefakt inżynieryjny. Przypisz własność, przejrzyj ją w przeglądzie kodu, świętuj, gdy dodasz nową trudną sprawę. Dyscyplina będzie wypłacać składane dywidendy w miarę skalowania.
1,14K
Najlepsze
Ranking
Ulubione
Trendy onchain
Trendy na X
Niedawne największe finansowanie
Najbardziej godne uwagi