如此数量的行人当中的任何两个文字转WAV音频