没有任何并行化情况下的内核吞吐量的估算方法如下:
THW = Frequency / Computational Intensity = Frequency * max(VINPUT, VOUTPUT) / VOPS
Frequency 表示内核的时钟频率。该值由目标加速平台或目标平台来确定。例如,Alveo U200 数据中心加速器卡上的最大内核时钟频率为 300 MHz。
如前文所述,函数的计算密集度是运算总数占输入和输出数据总量的比例。以上公式清晰表明了含大量运算和少量数据的功能更适合用于加速。