但却无法捕捉到任何细节文字转WAV音频