我们可以合理推测到文字转WAV音频