Mijn beste gok: Rubrieken + LLM Judge - Atomiseer elk punt in het grondwaarheidsbewijs en controleer dit tegen de modeloutput. Mijn gok over hoe ze dit schaalbaar hebben gemaakt - want eerder was het dat niet, mensen moesten ze zorgvuldig opstellen, is dat ze iets hebben getraind of gedaan om zeer goede rubrieken te genereren voor elk specifiek probleem of zijn antwoord.
Alexander Wei
Alexander Wei19 jul, 15:50
5/N Naast het resultaat zelf, ben ik enthousiast over onze aanpak: We bereiken dit capaciteitsniveau niet via een smalle, taak-specifieke methodologie, maar door nieuwe wegen te verkennen in algemene versterkingsleren en schaling van rekentijd tijdens tests.
.@polynoamial @alexwei_ knipper twee keer als ik gelijk heb en drie keer als ik ongelijk heb - voordat de blinden door de blinden worden geleid xD
22,25K