是因为没找到合适的说话时机文字转WAV音频