当然他提出的条件也是经过精密的计算的文字转WAV音频