虽然确实是被动的选择文字转WAV音频