至少大致锁定核心构件的方向文字转WAV音频