这种假设和决策实在太难做了文字转WAV音频