我们必须要跟着他的呼吸和心跳来做文字转WAV音频