因为他们都记得文字转WAV音频