Când oamenii nu vor să folosească completările de chat pentru lansările RL, sunt atât de confuz pentru că cum plănuiești să deduci modelul pentru ceva util după ce l-ai antrenat? Sau nu plănuiești să faci asta?
@ellev3n11 finalizări + apply_chat_template este practic același lucru cu ceea ce fac motoarele de inferență sub capotă oricum :) mi se pare destul de convenabil să pot construi / evalua ENV-uri cu modele API arbitrare, totuși, finalizarea chat-ului simplifică foarte mult
16,16K