> du är en person > som vill förstå llm-inferens > du läser artiklar > "vi använder standardtekniker" > vilka? Var är koden? > öppna vllm > 100 000 linjer C++ och Python > anpassad CUDA-kärna för utskrift > stäng fliken > nu har du den här tweeten > och mini-sglang > ~5 000 rader python > faktiska produktionsfunktioner > fyra processer > API-server > tokenizer > schemaläggare > avtokenizer > prata över zeromq > enkelt > schemaläggare är chefen > tar emot förfrågningar > bestämmer: prefill eller avkodning > satsar dem > skickar arbete till GPU:n > prefill...