热门标签

陈根:越真实的语音合成,越会面临的问题是什么?

时间:2022-12-04   阅读:22   评论:7

文/陈根

声音是一个人独特的标识,而在人工智能的快速发展下,这一独特标识却又有了越来越多可代替的选项——语音合成作为人工智能的一个重要分支,旨在通过输入文字,经由人工智能的算法,合成像真人语音一样自然的音频。

现在,机器已经可以轻松又准确地模仿人类讲话,并被广泛的应用于音视频创作场景中,甚至机器也可以克隆特定人的声音。给算法输入某个人的一个声音片段,算法会学习这个人的方式,然后再把这种说话方式跟其他的人声相结合,不过问题或许也随之而来。

语音合成还将超越预想

语音合成涉及创建特定的声音模型,不仅可以将文字转化成声音,而且可以转化为接近真人语调和节奏的声音。语音合成虽然并不是一个新近的技术,甚至已经是一个广泛应用于各行各业,以及出现在人们社会的生产和生活的技术,但语音合成能带来的未来,实际上仍然超越人们的想象。

语音合成应用中最为人们所熟悉的就是人工智能的语音电话、语音导航、语音助手以及配音等。

比如,配音方面,在过去的几十年里,许多经典的 TVB 影视片都离不开配音。并且,动漫等影视中最逼真的声音合成,也大多通过配音演员的声音录制来实现的,然后将他们的声音剪切成不同的片段,像做拼图一样,将这些声音“拼接”在一起,形成一整段声音。语音合成则让昔日繁琐且枯燥的配音工作有望被取代。配音将不再是专业人士的标配,任何人都可以自主且简单地克隆自己的声音,而克隆出来的声音近乎逼真。

直到不久前,语音克隆,即过去所说的“语音银行”,还只是个定制业务,为那些有可能因癌症或手术丧失语言能力的人服务。过去,模仿并合成语音耗时漫长,花费不菲。过程中要录制许多短句,每一句都要以不同的情感侧重及根据不同的语境(陈述、疑问、命令等)重复多次,为的是涵盖所有可能的发音。比利时语音银行公司阿卡贝拉集团(Acapela Group)对需耗时八小时的录制过程收取3000欧元(3200美元)的费用。其他公司收费更高,还需要顾客在录音室里花上好几天的时间。

现在,神经网络可以对目标声音的未排序数据进行训练,最终以简单快速、容易的方式,生成一段完整的音频。当人们将克隆的音频从设备中导出时,音色和音质几乎不会受到压缩和影响。

上一篇:哈希竞猜游戏平台 - 哈希单双、哈希牛牛、哈希定位胆

下一篇:素颜现身,发型太杂乱发色不均匀

网友评论

  • 2022-10-10 00:31:02

    钟南山院士表示,奥密克戎毒株传染性肯定是更强的,但致病力并没有那么强,从南非的反馈看,多数的病人症状相对比较轻。至于现在的疫苗保护力会不会降低?这个正在紧锣密鼓的研究中。这个文好玩

  • 2022-11-24 03:09:24


    我好爱这篇怎么办

    • 2022-11-24 17:25:48

      @且爱n 国际货币基金组织(IMF)29日批准对巴发放11.7亿美元援助资金,这笔资金旨在帮助缺乏现金的巴基斯坦避免债务违约。小白一脸蒙。

    • 2022-11-26 03:10:38

      @且爱n   伟立控股(02372)正式招股,招股日期由6月17日至22日,预期6月30日上市,发售2亿股,90%配售,10%公开发售,另有15%超额配股权,每股招股价为0.63至0.67元,集资最多1.34亿元,按每手4000股,入场费2707元,以上限价计算,市值约5.36亿元,独家保荐人为均富融资。伟立控股为卷烟包装纸制造商,主要向中国各个省份(主要包括湖北省及河南省)的卷烟包装制造商提供产品。还会评论的

  • 2022-11-28 01:40:39

    在前一期节目中,杨超越的复古旗袍装就得到了网友们的高度好评。而且她还玩转“叠穿”时尚,旗袍外面搭配薄纱半裙,不同的颜色点缀,展示出她骨子里的清新少女感,好看极了。特别满意喜欢哎!!

  • 2022-12-04 02:05:50

      挑灯夜战,是很多华山医院神经内科专家的常态。神经外科吴劲松教授是看门诊到最晚的外科医生,“年报”显示:最晚21点50分。作为全球临床规模最大的神经外科诊疗中心之一,华山神外每年接诊的脑肿瘤患者数量巨大,超过一半以上是外单位无法解决的疑难杂症。“脑肿瘤的精准治疗常常要在切除肿瘤和保护功能之间做平衡,所以我们愿意多花一些时间和患者交流、了解他们的生活和真正的需求,然后沟通确定对患者最好的手术时机和方案。”吴劲松说,不少患者把华山医院视为“最后的希望”,他很珍视这份信任。小花花送给你