毕竟是理论上的啊···文字转WAV音频