那么现在所要考量的就是细节文字转WAV音频