是不是可以纳入到一并来考虑文字转WAV音频