最终选择了无视文字转WAV音频