我刚才的结论是以西北欧的审美作为基准文字转WAV音频