DSP汇编中的循环问题-第2页回答

1楼-- · 2019-03-27 11:09

1. 由于中间结果会超过255，那么就不能使用ADD4指令了，但是可以利用C64的打包指令和并行运算指令来实现一次处理两个数据。

2. 对于pSrcRGB的存储方式有一定要求：像素的R G B分量存储在一个32位的数据中，且高8-bit为0。如下所示，
| 0x00 | R1 | G1 | B1 | 0x00 | R2 | G2 | B2 | ......

3. 下面说一下实现的思路，供参考（非最优code，根据实际情况改写）
1) 用两个LDW指令读取两个像素的RGB值到寄存器RGB1_reg和RGB2_reg
RGB1_reg: 0x00 | R1 | G1 | B1
RGB2_reg: 0x00 | R2 | G2 | B2

2) 用打包指令对R G B分量进行打包
需要一个寄存器保存mask
MVKL 0x00ff00ff, mask_reg
MVKH 0x00ff00ff, mask_reg; mask_reg = 0x00ff00ff，可以放在循环外，值保持不变

打包
PACKH2 RGB1_reg, RGB2_reg, R12_reg ;R12_reg = 0x00 | R1 | 0x00 | R2
PACKH4 RGB1_reg, RGB2_reg, G12_reg ;G12_reg = 0x00 | G1 | 0x00 | G2
PACKL4 RGB1_reg, RGB2_reg, B12_reg ;B12_reg = R1 | B1 | R2 | B2
AND B12_reg, mask_reg, B12_reg ;B12_reg = 0x00 | B1 | 0x00 | B2

3) 使用ADD2 SUB2 SHR2做并行16位的运算，高8-bit的0x00保证中间结果不会溢出

4) 将运算结果限定不超过255
MIN2 R12_reg, max_reg, R12_reg; max_reg的值等于mask_reg，可以复用
MIN2 G12_reg, max_reg, G12_reg
MIN2 B12_reg, max_reg, B12_reg
MAX2 R12_reg, min_reg, R12_reg; min_reg = 0
MAX2 G12_reg, min_reg, G12_reg
MAX2 B12_reg, min_reg, B12_reg

运算结果是：
R12_reg: 0x00 | R1_r | 0x00 | R2_r
B12_reg: 0x00 | B1_r | 0x00 | B2_r
G12_reg: 0x00 | G1_r | 0x00 | G2_r

5) 解包，也是用打包指令
PACKH2 R12_reg, B12_reg, dst1_reg ;dst1_reg = 0x00 | R1_r | 0x00 | B1_r
PACK2 R12_reg, B12_reg, dst2_reg ;dst2_reg = 0x00 | R2_r | 0x00 | B2_r

把G12_reg并入dst reg会比较麻烦，可以用以下方法：
需要另外一个寄存器保存mask
MVKL 0x0000ff00, mask2_reg ;
MVKH 0x0000ff00, mask2_reg; mask2_reg = 0x0000ff00，可以放在循环外，值保持不变

SHRMB G12_reg, G12_reg, tmp1_reg; tmp1_reg = G2_r | 0x00 | G1_r | 0x00
AND tmp1_reg, mask2_reg, tmp1_reg; tmp1_reg = 0x00 | 0x00 | G1_r | 0x00
SHLMB G12_reg, G12_reg, tmp2_reg; tmp2_reg = G1_r | 0x00 | G2_r | 0x00
AND tmp2_reg, mask2_reg, tmp2_reg; tmp2_reg = 0x00 | 0x00 | G2_r | 0x00

OR dst1_reg, tmp1_reg, dst1_reg; dst1_reg = 0x00 | R1_r | G1_r | B1_r ; dst1_reg是像素1的运算结果
OR dst2_reg, tmp2_reg, dst2_reg; dst2_reg = 0x00 | R2_r | G2_r | B2_r ; dst2_reg是像素2的运算结果

6) STW

[ 本帖最后由 carrotchen 于 2012-4-28 16:31 编辑 ]

breeze505

2楼-- · 2019-03-27 11:40

（1）我要计算的数据是RGB24格式，依照B1，G1，R1，B2，G2，R2..存储，这样它就是非32位对齐，用LDW就不好读进去算了吧？
（2）根据你的指导，打包指令看起来很强大，我需对照指令集文档再详细看下。
（3）还得麻烦你帮看下我在7楼所描述的双层循环问题，为什么我只能执行单层的
求教，感谢！

carrotchen

3楼-- · 2019-03-27 12:03

1. RGB数据需存储成| 0x00 | R1 | G1 | B1 | 0x00 | R2 | G2 | B2 | ......，否则不方便处理。
2. 你的代码中
[!A_loopheight] B .S1 loop ; <--- A_loopheight为0时跳转到loop，第一次执行到该指令处，A_loopheight=2，那么就跳出循环了，与预想不符合吧？

breeze505

4楼-- · 2019-03-27 16:44

（1）那这样的话，需要在主函数进入汇编前把数据流处理成0RGB0RGB格式的，这样需要遍历64*64，还要写操作，这些耗费的时间应该也不会少，所以我觉得这样的话，总体的效率应该不会比直接单字节高吧？我写了单字节处理的RGB-YCbCr位移的汇编程序，发现瓶颈都集中在.S单元，因为位移运算只有用到.S单元，所以一次只能并行2条指令。所以，我想是否有可以采取某种数据打包方式+提高并行处理度，来提高总体的程序性能？

（2）嗯，我想错了，但是那应该怎么去跳转才能实现双循环功能呢

[ 本帖最后由 breeze505 于 2012-5-2 09:07 编辑 ]

carrotchen

5楼-- · 2019-03-27 20:45

精彩回答 2 元偷偷看……

breeze505

6楼-- · 2019-03-28 00:16

精彩回答 2 元偷偷看……

DSP汇编中的循环问题

一周热门更多>

相关问题

相关文章

DSP汇编中的循环问题

打开微信“扫一扫”，打开网页后点击屏幕右上角分享按钮

一周热门 更多>

相关问题

相关文章

采纳回答

编辑标签

举报内容

检举类型

检举原因

检举说明(必填)

一周热门更多>