而是选择了强行吸收文字转WAV音频