如果在凝聚本源之前文字转WAV音频