更可能是两者皆有文字转WAV音频