根据以上公式完成计算后,即可估算初始硬件/软件性能比:
Speed-up = THW/TSW = Fmax * Running Time /Vops
在没有任何并行化的情况下,初始速度很有可能小于 1。
下一步,计算满足性能目标所需的并行度:
Parallelism Needed = TGoal / THW = TGoal * Vops / (Fmax * max(VINPUT, VOUTPUT))
这种并行度可以通过各种方式实现:拓宽数据路径、使用多个引擎,以及使用多个内核实例。随后,开发者应根据自身需求及其应用特征来判定最佳组合。