DSP代码优化方法(4)

2019-07-29 15:58发布

方法一 把浮点运算改成定点运算
        因为C6x DSP板并不支持浮点运算,但我们的原始程序代码是浮点运算的格式,所以必须改成定点运算,而其修改后的执行速度也会加快很多。我们采用 Q-format 规格来表示浮点运算。以下将介绍其相关原理。
        定点DSP使用固定的小数点来表示小数部份的数字,这也造成了使用上的限制,而为了要分类不同范围的小数点,我们必须使用Q-format的格式。不同的Q-format表示不同的小数点位置,也就是整数的范围。表2呈现Q15数字的格式,要注意在小数点后的每一位,表示下一位为前一位的二分之一,而MSB (most-significant-bit ) 则被指定成有号数 ( Sign bit )。由表2可以知道,当有号数被设成0而其余位设成1时,可得到最大的正数 (7FFFH ) ;而当有号数被设成1而其余位设成0时,可得到最大的负数 ( 8000H ) 。所以Q15格式的范围从-1到0.9999694 (@1) ,因此我们可以藉由把小数点向右移位,来增加整数部份的范围,如表3所示,Q14格式的范围增为-2.0到1.9999694 (@2) ,然而范围的增加却牺牲了精确度。

友情提示: 此问题已得到解决,问题已经关闭,关闭后问题禁止继续编辑,回答。
该问题目前已经被作者或者管理员关闭, 无法添加新回复
11条回答
拿起书本
1楼-- · 2019-07-30 21:44
 精彩回答 2  元偷偷看……
拿起书本
2楼-- · 2019-07-31 00:15
汇编代码级的优化
        在经过C代码的优化之后,还不能满足性能上的要求,则可以通过profile
        clock工具找出效率很低的部分,使用线性汇编重新改写。再通过汇编优化器编译,汇编优化器从输入的线性汇编代码中,完成以下功能
● 寻找可以平行执行的CPU指令。
● 在软件流水线期间,处理流水线标号。
● 分配寄存器的用法。
● 分配功能单元。
TI提供的汇编优化器可以得到很高的效率,一般可以满足性能上的要求。
拿起书本
3楼-- · 2019-07-31 03:51
   优化中的问题
        在优化过程中,总是要对程序进行一定的改动,这样经常会出现一些问题。
        1) 优化结果的验证
        优化过的程序往往不知道是否运行正确,这就需要加以验证。一般采用的办法就是通过测试序列来验证。测试序列指的是对于不同的算法所取的一组特殊的数据,这些数据可以准确的反映算法的特性。测试序列中每组数据包括输入数据和输出数据,通过对输入数据的运算,把结果与输出数据进行比较,判断程序的正确性。一些常见的算法,一般都提供了测试序列。还有一些,没有测试序列。这时就需要根据算法的特点,自己构造测试序列,进行验证。构造的时候,注意序列最好有几组,数据最好有一定的长度,这样验证的更准确。
        2) 内存泄漏的问题
        C64X系列DSP的内部存储空间有1MB,其中程序和数据还有CPU的二级缓存将共享这片空间,因此当程序的运行不正常时,很有可能就是内存泄漏造成的。因此,在程序设计中,应尽量不用指针,同时注意进行边界检测。
        程序设计的一些方法
        程序设计时,一切以满足实际的要求为目标。在实际的设计中,除了优化能够提高性能以外,还可以采取其他的办法,利用DSP的特性,提高程序的运行性能,满足实际的设计要求。
        1) 把程序和经常要用的数据放入片内RAM
        片内RAM与CPU
        工作在同一时钟频率,比片外RAM性能高得多。因此把程序放在片内可以大大提高运行的速度。同时对于一些经常要用到的数据,放入片内,也会节省处理时间。
        2) 通过DMA技术搬移数据
        对于C64X芯片,其片内RAM有1MB,但是对于一些大型的图像处理算法而言,仍可能是不够的,因此经常通过DMA技术,把需要用到的数据搬入片内,把不需要的搬到片外,可以大大的提高程序的运行速度。
        3) CACHE的使用
        增大CACHE,可以明显的提高性能。但是C64X系列DSP中程序和数据还有CACHE共享片内RAM,因此增大CACHE,就减小了实际的片内可用空间,设计中需要注意。
jeremyshw
4楼-- · 2019-07-31 04:28
谢谢楼主,要是集中到一个Word里就更好了
long009
5楼-- · 2019-07-31 10:03
谢谢分享

一周热门 更多>