Jag undrar ofta om det extrema beteendet inom AI är en biprodukt av litteraturträning. Berättelser är till sin natur undantag. Intressanta bitar av mänsklig erfarenhet, inte genomsnittet. Det finns många böcker om mord där vi ser "han tänkte döda honom" eller "han dödade honom" Men jag har aldrig sett en bok som säger att "tanken på att döda slog honom aldrig eftersom han var en välanpassad människa och det var en mild olägenhet" Det är inte den typen av litteratur vi skriver. Men vi tränar LLM:er på all skriven text, och i sina enklaste former förutsäger de vilket texttecken som troligen kommer härnäst i en mening. Så de ser och förutsäger våld i högre grad än människor, för om allt du vet om människor är vår litteratur, så är våld också ganska normaliserat för dig. Vi vill att AI-agenter ska vara humanistiska, kanske supermänskliga, och ändå utbildar vi dem på en del av vår kunskap som är "intressant" och utgör mindre än 1 % av den mänskliga upplevelsen, som mestadels är vardaglig. Så när AI försöker lösa problem och går in i väggen, istället för att prova alla vardagliga lösningar, hoppar den ibland bara till de extrema och intressanta! 🤷‍♂️
4,85K