C66x定点浮点混合DSP循环编程优化指南-long009的回答

C66x定点浮点混合DSP循环编程优化指南

2019-07-29 15:56发布

C66x DSP是TI最新出的定点和浮点混合DSP，后向兼容C64x+和C67x+、C674x系列DSP。本文介绍了基于C66x架构的常用优化技巧，首先介绍C66x相对于C64x+定点DSP的浮点和定点处理能力的增强，以及C66x新引入的128-bit的数据类型。接下来说明c66x特有的特性和相关的优化技术，重点在其浮点增强以及对复数运算和矩阵、向量运算的intrinsics选择，最后是如何解决寄存器不足、SIMD move的使用平衡寄存器和功能单元的分配以及解决寄存器生命周期过长的问题的高级优化技巧。本文中的编译结果基于CCSv4.1中的CGTools v7.2编译器，编译选项–o3 –s –mw –mv6600
C66x DSP简介

C66x DSP是TI最新出的定点和浮点混合DSP，后向兼容C64x+和C67x+、C674x系列DSP。最高主频到1.25GHz，RSA指令集扩展。每个核有32KB的L1P和32KB的L1D，512KB到1MB L2存储区，2MB~4MB的多核共享存储区MSM，多核共享存储控制器MSMC能有效的管理核间内存和数据一致性。针对通信应用，其片内集成了2个TCP3d Turbo码字译码器，一个TCP3e Turbo码编码器，2个FFT/IFFT,DFT/IDFT协处理器以及4个VCP2 Viterbi译码器。高速互联总线，4个串行RapidIO接口，千兆网口、EMIF-DDR3内存控制器。TeraNet Switch用于片内和外设间的快速交互
C66x DSP的架构和指令增强
      TMS320C66x ISA架构是对TMS320C674x DSP的增强，也是基于增强VLIW架构的，具有8个功能单元（2个乘法器，6个ALU算术运算单元），该架构的基本增强如下：
      4倍的乘累加能力，每个周期32个 (16x16-bit)或者8个单精度浮点乘法；
      浮点运算的增强：优化了将TMS320C67x +和TMS320C64x+ DSP 结合的TMS320C674x DSP，原生支持IEEE 754单精度和双精度浮点运算，包括所有的浮点操作，加减乘除；浮点运算的SIMD支持以及单精度复数乘法，附加的灵活性，如在.L和.S单元完成INT到单精度SP的相互转换
      浮点和定点向量处理能力的增强: TMS320C64x+/C674x DSPs支持2-way的16-bit数据SIMD或者4-way的8-bit，C66x增加了SIMD的宽度，增加了128-bit的向量运算。如QMPY32能做2个包含4x32-bit向量的乘法。另外SIMD的处理能力也得到增强；
      复数和矩阵运算的引入和增强：针对通信信号处理中的常用复数算术函数和如矩阵运算的线性算法的应用，如单周期可以完成两个[1×2]复数向量和[2×2]的矩阵乘法