怎样使用DSP的cache

2019-07-14 22:10发布

怎样使用DSP的cache


处理器中的cache是存放于处理器附近的高速存储器,它可以用来保存运算处理时的一些共有的指令,从而加速运算的速度。

  在本文中,将比较cache存储器和系统中的普通的存储器,随后将介绍cache的一些基本理论和基本术语,以及在高速处理器结构中cache的重要性。以TI的TMS320C64x DSP结构为基础,将着重向开发者介绍cache是如何工作,如何配置,以及如何正确使用cahce,本文将以cache的一致性贯穿全文。
  存储器结构
  在图一中,左边的模块介绍了普通的存储器系统结构,CPU和内部存储器均工作在300MHZ。当CPU访问外部存储器时,将不会发生存储器访问禁止的情况。并且当访问内部存储器时也不会发生访问延迟的情况。
  当CPU的时钟增加到600MHZ时,只有当存储器的速度也增加到600MHZ时才不会发生访问等待的状态。很不幸,对于大多数情况下同样频率工作在600MHZ的内部存储器价格将十分昂贵。而300MHZ的也不是好的选择,因为将大幅降低CPU的频率。设想一个算法需要在每个周期访问存储器,每一次对存储器的访问需等待一个周期,加倍了访问周期从而抵消了CPU的双倍工作频率。

图一:普通存储器和多层存储器结构
        解决的办法就是采用一个多层次的存储器。最靠近CPU的存储器由一块速度快但体积小组成,访问时不存在任何延迟。稍远离一些CPU的采用体积大但速度稍慢的存储器。对于低级别的存储器来说,最靠近CPU的这块存储器便是典型的cache存储器
  位置法则
  当然,这个解决办法必须工作在CPU能够最快访问最近的存储器的情况时。由于位置法则,对于大多数CPU来说这一情况都是适用的。这意为着在一个特定的窗口时间内,程序仅仅访问全部地址空间的一块相关的小区域。这包括一下两个基本的位置种类:
  1、空间位置法则:一块刚刚被访问过的资源附近的资源更有可能被访问
  2、时间位置法则:在过去的一个时间点刚刚被访问的资源更有可能马上在将来被访问
  空间位置法则是由计算机程序的编程风格所决定的,一般情况下,相关的数据将被连续的存储在存储器中。例如一个共同的类型在计算时,总是将第一个元素放在第一列,然后是第二个元素,以此类推。同理,时间位置法则形成的原因是程序包含的结构比如循环结构调用的是相同的指令(甚至是同样的数据),以此反复。
  图二阐述了空间位置法则,它描述了一个6阶FIR滤波器。为了计算y[0]输出,将从输入数据缓存x[](值由预算法则对内存中访问的采样数据决定)里读出6个采样数据。当完成一次数据访问时,cache控制器从内存中取出x[0]和一系列的取样值地址。这个一系列的地址值称为cache 串。如果再从低速率的存储器中取出数据串将导致一些CPU的延迟周期。这样做的目的是而当进行以下计算时,临近x[0]的这些数据有可能马上将被访问。而对于FIR滤波器来说正好适用这个原则,因为接着的五个采样数值(x[1]-x[5])马上将被访问。这五个数值的访问过程将进入到cache中完成而不是在低速率的存储器中进行,因而不会产生任何延迟周期。

图二:位置原则
   当计算下一个输出y[1]时,五个抽样值(x[1]-x[5]) 将被再次使用,只有一个抽样值(x[6])是新的。所有的抽样值已经提取到cache中,CPU不会发生任何的延迟。这个早先使用过的数据在数据处理中再次被用到的例子很好的说明了时间位置原则。
  cache是以局部时间地和空间地访问数据为基础的。因此极大的降低了对低速率的存储器访问,绝大多数数据访问都由高速cache存储器以CPU的工作频率服务于CPU。
       存储器数率:
  cache系统代表性的包括三种级别
  1、第一级cache (L1)位于CPU芯片上并且运算于CPU工作频率。
  2、第二级cache(L2)也位于芯片上比L1速度慢而体积大。
  3、第三级cache(L3)位于CPU外部,是速度最慢体积最大的存储器。
  每一级别的cahce相应执行的因素决定于cache距离处理器的距离。表一中体现了一个有代表性的各自相应的时间。

图三:在一个2ns时钟周期的具有多级cache系统的处理器cache执行时间
  当运算器需要从存储器中提取数据时,它首先在最高级的cache中寻找然后在次高级的cache中寻找。如果在cache中找到,则称为命中。反之,则称为不命中。
  一个cache系统的性能决定于cache申请命中的次数,也称为命中率。对于一个特定的级别的cache来说,一个高的cache命中率意为着更高的性能。而整个cahce系统的性能决定于各级cache的命中率。比如一个cache系统第一级 L1 cache命中率为70%,第二级L2cache命中率为20%,第三级L3cache命中率为5%,整个存储器的为5%,因此基于图三这个系统的平均存储器性能为:
  •   (0.7 * 4) + (0.2 * 5) + (0.05 * 30) + (0.05 * 220) = 16.30 ns

复制代码
  为了阐述这个概念,我们以TI的TMS320C64x DSP 存储器结构为例,(表四)包含了一个两级内部cache存储器以及外部存储器。L1cache可以被CPU无延迟的访问。L2存储器可被编程并且可分配为L2SRAM(可设地址的片上存储器)和L2cache。无论何种设置中,L2存储器都只能每两个周期被访问一次。L2的大小决定于芯片的不同,但总是比L1大的多。以TMS320C6454 DSP为例,L2的大小为1MByte。而C64x DSP 最多支持2GBytes 的外部存储器。存储器的速度决定于存储器采用的技术种类,绝大多数在100MHZ左右。在图三中,所有的cache和数据通道均自动的由cache控制器控制。

图四:TMS320C64x Cache 存储器结构
  Cache的数据更新
  因为cache也是主存储器中的一部分备份,因此cache是否能实时反映主存储器的数据显得至关重要。当cache里的数据改变,而主存储器内的数据未能改变时,cache里的数据被称为“脏”数据。当数据在主存储中改变,而cache中未能实时改变,cache里的这个数据被称为“延迟”数据。
  cache控制器采用一系列的技术来维持cache的一致性从而保证cache里存储的都是有用的信息而不是延迟数据。“监测”和“写回”操作便是两种保持cache一致性的办法。”监测“指的是用来允许cache在主存储器中是否进行影响cache地址的传输。如果cache探测到有这样的传输发生,它将及时更性自己从而匹配主存储器。这个在主存储器中复制数据的过程称为”写回“操作。
  因为cache比主存储器体积小,因此经常会被填充满。当此种情况发生时,所有搬到cache里面的新数据将会取代已经存在的数据。这里有多种决定数据取代的方法。例如随机取代法、先入先出取代法、最近最少使用取代法。大多数的处理器采用的都是最近最少使用取代法。这样可以是的最新的数据取代最近最少使用的数据。这种方法来源于时间位置法则。

友情提示: 此问题已得到解决,问题已经关闭,关闭后问题禁止继续编辑,回答。