然后在慢慢的转化为外部的补充文字转WAV音频