实际上她们的计划几乎是完美无缺的文字转WAV音频