在合适的时候做出最正确的表演文字转WAV音频