我做出了这样一个假设……无论你的追踪手法是什么形式的文字转WAV音频