GPU基本常识二

DSP

GPU基本常识二

2019-07-13 19:05发布生成海报

站内文章 / DSP

9530 0

DSP、CUDA、VIP7000VIP7000：shader core是2个，每个shader core有4个寄存器文件，每个寄存器文件有128个寄存器，每个寄存器有128bit(一条指令可以处理128bit数据).
线程切换0开销. 一条指令执行完毕后，可以立刻拿到结果，没有数据延迟CUDA：shader core数量多，但寄存器32bit.DSP: VNW架构，指令里面的功能单元的并行，实现加速. 线程切换零开销. 指令执行需要数据延迟. 用汇编语言写.
VIP7000非常方便，一个图像分块，只需考虑一个小块图像即可. 处理一个小块图像，相当于处理一个线程. 写完一个线程配上相应的参数，自动会有驱动把整个算法分参，按照这个线程去做.
VIP7000有2个shader core, 每个shader core有4个寄存器文件，每个寄存器文件有128个寄存器，每个寄存器128bit. 写openvx程序的时候，只需要关注一个寄存器文件即可.
GPU可隐藏数据延迟，DSP开发中shader core去访问DDR，需要等待数据周期.DSP关注点, 减少数据延迟和程序优化.VIP7000，写一个线程，只需要关注一个寄存器文件就可以了. 如果kernel里面需要129个寄存器，则第129个寄存器需要等待。等到前128个寄存器里的数据处理完空出来，然后把第129个数放进去，同时把L1-cache里的数据加载到剩余的127个寄存器里继续使用.VIP7000, shader core不同，驱动自动拆分，程序不用改动.VIP7000, 浮点的加减乘除都可用指令出结果. 也可自动对图像的边界进行自动处理.
VIP7000指令集： shader指令 EVIS指令(24条)指令集扩展：DSP有些功能，想把它作为指令集的加速，DSP无法进行. VIP7000, 在GPU的基础上加了EVIS指令，定义指令非常方便，在指定级别的基础上进行加速.数据管理差异： DSP 混合memory架构, L1 L2 DDR DMA Cache的一致性. VIP7000, 多core的并行方式,来隐藏数据延迟. shader core共享一个L1-cache.
视觉算法，VIP7000需要，DSP需要C、C++, VIP7000需要，DSP需要Opencl，VIP7000支持，DSP不支持指令集，VIP7000（EVIS 24条指令）,DSP几百条指令并行汇编语言，VIP7000不需要，DSP需要DMA, VIP不需要掌握，DSP需要掌握Cache一致性，VIP7000不需要掌握，DSP需要掌握
DSP可以扩展Core, 但两个Core不独立.
对VIP7000来说，分辨率越来越高，相同程序只需要换4个Core的版本即可，而DSP需要重新推翻重来.VIP7000串行单线程的程序架构. VIP7000硬件加速接口，客户可以自己算法固化，做成SDK的方案. DSP是很难做到的.

Ta的文章更多 >>

GPU基本常识二
0 个评论

GPU基本常识二

Ta的文章 更多 >>

热门文章

举报内容

检举类型

检举原因

检举说明(必填)

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

Ta的文章更多 >>