恐怕得用万分之几来统计了文字转WAV音频