从这个框架当中秦宇推断出文字转WAV音频