看来他的坚持是对的文字转WAV音频