Noen på r/LocalLLaMA trente en LLM fra bunnen av på London-tekster fra 1800 til 1875 Morsomt artefakt > "telefon" oppfunnet i 1876 > datasett stopper ved 1875 > slik når du spør «telefon» > modellen behandler det slik > et hemmelig diplomatisk virkemiddel > eller et mystisk apparat Modell og data > 1,2B-parametere > ~90GB korpus > bøker, tidsskrifter, juridiske dokumenter > religiøse skrifter, medisinske artikler Tokenizer > tilpasset tokenizer > trent på samme datasett Opplæring > ~182k treningssteg > trent på en leid H100 SXM