STM32F4,开FPU 用DSP计算开平方sqrt()要比arm_sqrt_f32要快,这是...

2019-12-12 18:25发布

本帖最后由 王涛 于 2019-3-6 12:52 编辑

STM32F4,开FPU 用DSP计算开平方sqrt()要比arm_sqrt_f32要快,这是为什么???

在做工作时遇到一个现象就是要做大量的单精度浮点数的开平方计算就自然想到了要用F4的dsp来就算。可是反复测试后发sqrt()要比arm_sqrt_f32要快,这是为什么?
貌似arm_math还不如math给力啊,这是什么回事?

arm_sqrt_f32
对于CM4带FPU的处理器来说,浮点数的平方根求解很简单,只需调用指令__sqrtf,仅需要14个时钟周期就可以完成。函数定义如下(在arm_math.h里面):

static __INLINE arm_status arm_sqrt_f32(
  float32_t in,
  float32_t * pOut)
  {
    if(in > 0)
    {

//      #if __FPU_USED
#if (__FPU_USED == 1) && defined ( __CC_ARM   )
      *pOut = __sqrtf(in);
#else
      *pOut = sqrtf(in);
#endif

      return (ARM_MATH_SUCCESS);
    }
    else
    {
      *pOut = 0.0f;
      return (ARM_MATH_ARGUMENT_ERROR);
    }

  }
有遇到过的吗?希望给点提示帮助一下。

在arm_math.h中是这么定义的:

             static __INLINE arm_status  arm_sqrt_f32(float32_t in, float32_t *pOut)
                     {
                        if(in > 0)
                             {
                                     //    #if __FPU_USED
                                    #if (__FPU_USED == 1) && defined ( __CC_ARM   )
                                              *pOut = __sqrtf(in);
                                   #else      
                                              *pOut = sqrtf(in);
                                   #endif
                                 return (ARM_MATH_SUCCESS);
                            }
                        else
                           {
                               *pOut = 0.0f;
                                return (ARM_MATH_ARGUMENT_ERROR);
                          }
               }   

        即开方用的函数是arm_sqrt_f32(),其中首先判断被开发的书是否大于0,只有大于0的才能进行运算,否则输出结果为0并返回“错误”标志。如果大于0,并且实用了FPU和__CC_ARM控制项,那调用__sqrtf()来完成编译,否则调用sqrtf()——这个sqrtf()是能在keil的math.h中找到的,即调用子函数来完成运算,而__sqrtf()呢?新出现的,相信大家都能猜到是什么玩意儿:对,就是VSQRT指令!因此要把这点性能也要发挥出来,就需要工程选项之C/C++选项卡的define中继续加入语句__CC_ARM才行。大家可以比较一下是否加入__CC_ARM编译后会汇编代码的差别巨大差别。

       当然,对于arm_sqrt_f32()函数还是有些麻烦,如果你确认被开方的书是大于等于0的,那就直接使用__sqrtf()函数完成运算,即一条简单的VSQRT指令。
友情提示: 此问题已得到解决,问题已经关闭,关闭后问题禁止继续编辑,回答。
该问题目前已经被作者或者管理员关闭, 无法添加新回复
16条回答
shenfeipascal
1楼-- · 2019-12-13 15:30
 精彩回答 2  元偷偷看……
90999
2楼-- · 2019-12-13 15:35
本帖最后由 90999 于 2019-3-6 12:15 编辑

float InvSqrt (float x)
{
float xhalf = 0.5f*x;
int i = *(int*)&x;
i = 0x5f3759df - (i >> 1); // 计算第一个近似根
x = *(float*)&i;
x = x*(1.5f - xhalf*x*x); // 牛顿迭代法
return x;
}

这个算法依赖于浮点数的内部表示和字节顺序,所以是不具移植性的。如果放到Mac上跑就会挂掉。如果想具备可移植性,还是乖乖用sqrt好了。但算法思想是通用的。

float CarmSqrt(float x){
union{
int intPart;
float floatPart;
} convertor;
union{
int intPart;
float floatPart;
} convertor2;
convertor.floatPart = x;
convertor2.floatPart = x;
convertor.intPart = 0x1FBCF800 + (convertor.intPart >> 1);
convertor2.intPart = 0x5f3759df - (convertor2.intPart >> 1);
return 0.5f*(convertor.floatPart + (x * convertor2.floatPart));
}

float SquareRootFloat(float number)
{
  long i;   
  float x, y;   
  const float f = 1.5F;   
  x = number * 0.5F;   
  y  = number;   
  i  = * ( long * ) &y;   
  i  = 0x5f3759df - ( i >> 1 );        //注意这一行   
  y  = * ( float * ) &i;   
  y  = y * ( f - ( x * y * y ) );   
  y  = y * ( f - ( x * y * y ) );   
  return number * y;
}
add00
3楼-- · 2019-12-13 20:43
大量的浮点开平方计算------->“平方根倒数速算法”
xf331785508
4楼-- · 2019-12-14 02:22
王涛 发表于 2019-3-6 12:03
什么意思没有理解?

楼下都回答了。
stm32_xiaocai
5楼-- · 2019-12-14 05:13
xf331785508 发表于 2019-3-6 11:46
对于大量的浮点开平方计算,你应该拥抱“平方根倒数速算法”的算法。

是quake里的算法么
王涛
6楼-- · 2019-12-14 06:20
 精彩回答 2  元偷偷看……

一周热门 更多>