因为他内心无法判断文字转WAV音频