最近项目需要做口形识别时,需要提取语音的波形数据,由于项目使用Unity+ Fmond studio,故找了找相关的API。
参考代码:
开始时初始化:RuntimeManager.cs
public FMOD.DSP m_FFTDsp;
public const int WindowSize = 1024;
FMOD.ChannelGroup master;
lowlevelSystem.getMasterChannelGroup(out master);
master.addDSP(FMOD.CHANNELCONTROL_DSP_INDEX.HEAD, m_FFTDsp);
播放声音时:
public float[] SpectrumData
{
get
{
uint spectrumLen;
IntPtr unmanagedData; FMODUnity.RuntimeManager.Instance.m_FFTDsp.getParameterData((int)FMOD.DSP_FFT.SPECTRUMDATA, out unmanagedData, out spectrumLen);
FMOD.DSP_PARAMETER_FFT fftData = (FMOD.DSP_PARAMETER_FFT)Marshal.PtrToStructure(unmanagedData, typeof(FMOD.DSP_PARAMETER_FFT));
var spectrum = fftData.spectrum;
if (fftData.numchannels > 0)
{
return spectrum[0]; //返回的是第0声道的数据
}
return null;
}
}
这样的方案有个不足,那就是会引起内存的频繁的GC。参考Fmod studio官方的代码: fomd_dsp.cs
其中的一个解决方案,是使用静态变量,来处理,由于本文只需取0声道的数据,故可以改成:
public static readonly int BUFFSIZE
= 2048;
public static float[] bufferData = new float[BUFFSIZE]; //使用静态变量,防止内存频繁g c
public float[] GetSpectrumData()
{
Array.Clear(bufferData, 0, BUFFSIZE);
Marshal.Copy(spectrum_internal[0], bufferData, 0, length);
return bufferData;
}
boluns
20160905