原本我们的任务只是观察和计算文字转WAV音频