🚨El equipo de DeepSeek descifró un contexto largo barato para LLM: un prellenado ~3.5 veces más barato y una decodificación ~10 veces más barata en un contexto de 128k en la inferencia con la misma calidad. ¡No puedo evitar amar el único laboratorio de IA de frontera que publica un modelo abierto y una gran investigación abierta!
Informe técnico:
54.27K