Foi divertido trabalhar nisso. Confira o post do blog se quiser ver como fazer o paralelismo especializado escalar linearmente através de worklogs internos e outras otimizações em nível de kernel!