Apple spolu s dalšími výzkumníky představil zajímavý objev v oblasti vývoje velkých jazykových modelů (LLM). Nová studie ukazuje, že místo tradičního hodnocení od lidí pomocí palce nahoru či dolů lze dosáhnout lepších výsledků díky jednoduchému triku. A sice použití kontrolních seznamů. Dnes se kvalita LLM po tréninku často dolaďuje metodou RLHF (Reinforcement Learning from Human Feedback), kdy lidští hodnotitelé posuzují odpovědi modelu. Tento přístup ale má limity a model se může […]