黄文旭的思路还是准确的文字转WAV音频