毕竟第一次他们就动用了十座文字转WAV音频