也根本不可能统计得如此精确文字转WAV音频