首先从测量运行时和吞吐量性能开始,以识别现有平台上当前正在运行的应用的瓶颈。应为整个应用程序(端到端)以及应用程序中的每个主要函数生成这些性能数据。最有效的方法是使用剖析工具(如 valgrind
、callgrind
和 GNU gprof
)来运行应用。这些工具生成的剖析数据可显示调用图形,包括所有函数的调用次数及其执行时间。这些数据能够为大部分后续分析进程确立基线。耗用执行时间最多的函数适合卸载到 FPGA 上并在其中进行加速。
首先从测量运行时和吞吐量性能开始,以识别现有平台上当前正在运行的应用的瓶颈。应为整个应用程序(端到端)以及应用程序中的每个主要函数生成这些性能数据。最有效的方法是使用剖析工具(如 valgrind
、callgrind
和 GNU gprof
)来运行应用。这些工具生成的剖析数据可显示调用图形,包括所有函数的调用次数及其执行时间。这些数据能够为大部分后续分析进程确立基线。耗用执行时间最多的函数适合卸载到 FPGA 上并在其中进行加速。