这也就意味着接下来的重头戏还是自己的讲话文字转WAV音频