所以结论是――必须要救文字转WAV音频