Кто-то на r/LocalLLaMA обучил LLM с нуля на текстах Лондона с 1800 по 1875 год Интересный артефакт > "телефон" изобретен в 1876 году > набор данных заканчивается в 1875 году > так что когда вы вводите "телефон" > модель воспринимает это как > какое-то секретное дипломатическое устройство > или загадочный аппарат Модель и данные > 1,2 миллиарда параметров > ~90 ГБ корпуса > книги, журналы, юридические документы > религиозные тексты, медицинские статьи Токенизатор > пользовательский токенизатор > обучен на том же наборе данных Обучение > ~182k шагов обучения > обучен на арендованном H100 SXM