总体框架已经重新架构文字转WAV音频