GPU的CUDA编程

怎么实现Tensor core和RT core的单精度浮点运算同时调度啊,求求大佬教教