搬运自FPGA开源工作室 FPGA做图像处理的优势

用FPGA做图像处理最关键的一点优势就是：FPGA能进行实时流水线运算，能达到最高的实时性。因此在一些对实时性要求非常高的应用领域，做图像处理基本就只能用FPGA。例如在一些分选设备中图像处理基本上用的都是FPGA，因为在其中相机从看到物料图像到给出执行指令之间的延时大概只有几毫秒，这就要求图像处理必须很快且延时固定，只有FPGA进行的实时流水线运算才能满足这一要求。

所以要了解FPGA进行图像处理的优势就必须理解FPGA所能进行的实时流水线运算和DSP，GPU等进行的图像处理运算有何不同。DSP，GPU，CPU对图像的处理基本是以帧为单位的，从相机采集的图像数据会先存在内存中，然后GPU会读取内存中的图像数据进行处理。假如采集图像的帧率是30帧，那么DSP，GPU要是能在1/30秒内完成一帧图像的处理，那基本上就能算是实时处理。

FPGA对图像进行实时流水线运算是以行为单位的。FPGA可以直接和图像传感器芯片连接获得图像数据流，如果是RAW格式的则还可以进行插值以获得RGB图像数据。FPGA能进行实时流水线处理的关键是它可以用其内部的Block Ram缓存若干行的图像数据。这个Block Ram可以说是类似于CPU里面的Cache，但Cache不是你能完全控制的，但Block Ram是完全可控的，可以用它实现各种灵活的运算处理。这样FPGA通过缓存若干行图像数据就可以对图像进行实时处理，数据就这样一边流过就一边处理好了，不需要送入DDR缓存了之后再读出来处理。

这样的数据流处理显然是顺序读取数据的，那么也就只能实现那些顺序读取数据的算法，也就是图像处理中那一大类用3x3到NxN的算子进行的滤波、取边缘、膨胀腐蚀等算法。可能大家会觉得这些运算似乎都是最基本的图像处理运算，只是个前端的预处理，似乎用处不大。但问题是只有FPGA做这样的运算才是速度最快效率最高的，比如用CPU做一个取边缘的算法根本就达不到实时。另外别小看了这种NxN算子法，它可以有各种组合和玩法，可以实现分选多种颜色，甚至分辨简单形状等功能。FPGA进行的这种算子法处理是并行流水线算法，其延时是固定的，比如用3x3的算子进行处理其给出结果的延时是两行图像的时间。还有这个算子法和现在卷积神经网络中最前面的卷积层运算是类似的。

FPGA中的Block Ram是重要和稀缺资源，能缓存的图像数据行数是有限的，所以这个NxN的算子中的N不能特别大。当然FPGA也可以接DDR把图像缓存到其中再读出来进行处理，但这种处理模式就和CPU差不多了，达不到最高的实时性。其实有些我们认为需要随机读取数据的图像处理算法也是可以并行流水线化的，比如连通域识别。《FPGA实现的连通域识别算法升级》这是我的一篇文章。

为什么FPGA在进行某些运算的时候效率会比较高。因为在密集运算中，耽误时间和消耗功耗的操作往往不是运算本身，而是把数据从内存中搬来搬去。GPU，CPU在进行运算时要把数据从内存中取出来，算好了在放回去。这样内存带宽往往成了运算速度的瓶颈，数据搬运过程中的功耗占的比重也不会小。FPGA则可以通过堆很多计算硬件的方法把要做的运算都展开，然后数据从中流过，完成一个阶段的运算之后就直接流入第二个阶段，不需要把一个计算阶段完成后的数据再送回内存中，再读出来交给下一个阶段的运算。这样就会节省很多时间和功耗。现在用FPGA做图像处理就是这样干的，比如先用一个3x3的算子进行滤波，再用一个3x3的算子进行取边缘，在FPGA流水线算法中，滤波处理完了数据立即就会进行取边缘处理，是不需要像CPU那样存回内存再读出来的。

原文地址：https://www.cnblogs.com/lht-learning/p/15001851.html