织梦CMS - 轻松建站从此开始!

金斧子-在线配资

当前位置: 金斧子-在线配资 > 互联网 > 搜狗发布AI合成主播 背后技术“搜狗分身”同时浮出水面

搜狗发布AI合成主播 背后技术“搜狗分身”同时浮出水面

时间:2018-11-08 16:43来源: 作者:admin 点击: 16 次
腾讯科技讯(孙宏超)11月8日消息,在11月7日开幕的第五届世界互联网大会上,搜狗宣布其与新华社合作开发、全球第一个全仿真智能合成主持人——“AI合成主播”正式亮相,同时搜狗未来人工智能的核心技术“搜狗分身”也获得了广泛关注。据介绍,观众只要向“AI合成主播”输入一句既有的新

腾讯科技讯(孙宏超)11月8日动静,配资之家在11月7日开幕的第五届世界互联网大会上,搜狗宣布其与新华社合作开发、全球第一个全仿真智能合成主持人——“AI合成主播”正式表态,同时搜狗未来人工智能的核心技术“搜狗分身”也获得了广泛关注。

据介绍,观众只要向“AI合成主播”输入一句既有的新闻文本,屏幕上就会呈现一位合成的新华社新闻主播,他不只会用和真人一样的声音进行播报,连唇形、面部心情也能完全吻合。这样的视频效果,无论看上去还是听起来,都与现实中的新华社主播的本人播报没有太大不同。

在合成主播的开发过程中,搜狗公司的相关技术人员同新华社的新闻主播一同进行了各种探索实验,在“搜狗分身”技术的支持下,通过人脸关键点检测、人脸特征提取、人脸重构、唇语识别、情感迁移等多项前沿技术,并结合语音、图像等多模态信息进行联合建模训练后,“AI合成主播”正式诞生。

同时,据搜狗公司智能语音事业部总经理王砚峰介绍,“搜狗分身”技术是搜狗人工智能的核心技术之一,诞生于搜狗“自然交互+常识计算”这一人工智能理念之下。该技术能够操作搜狗的AI能力,从图像心情,声音语言习惯,逻辑思维等层面对AI进行拟人化训练,然后克隆制造人类的AI分身,进而帮手人类提高信息表达和通报的效率。该技术是支撑“AI合成主播”正常运转的核心。

会后,搜狗公司CEO王小川接受腾讯科技等媒体采访,以下为部门采访实录(在不改变原意情况下有所删减)

媒体:像刚刚主持人说的,会不会他就失业了?

王小川:首先AI技术分为了感知技术和认知技术。感知是有声音的、有图像的,感知技术方向上,机器基本有机会可以做到跟人一样好。但是在认知技术方向上,机器背后的推理、常识、思考,以语言为核心的逻辑性的工具,机器的处理惩罚能力是有限的,这种情况下,涉及到人的高级活动的时候,机器此刻是做不到的。

媒体:以后有可能做到吗?

王小川:此刻没有这个技术。如果是在垂直领域里,出格细分的特定领域,像法律或者医疗,面越窄,机器更有机会在这个特定的领域里做到更接近人类。不能把AI当成大的词儿,AI里面有很多内涵。在这种情况下,把AI上升到跟人们认知相关的事情,机器在里面只能做辅助,是没有步伐代替人类的。但如果只是听个声音,看个图像,此刻像Face++ 或者商汤做的事情,机器就已经能代替一部门感知上的事情了。对于人类的高级活动,此刻机器代替人类是没戏的。高级活动叫认知,初级活动叫感知,目前的机器可以做到感知,这是先给大的框。

媒体:您怎么看AI合成主播,人类跟机器是怎样的关系?代替还是配合?

王小川:名字我们跟新华社定了,叫AI合成主播。这项技术里面涉及三个合成:声音合成、心情合成、唇型合成,出格是唇型合成。因为自己虚拟这个词,画个卡通画也叫虚拟,如果叫虚拟主播的话别人容易较真,说这个工具怎么叫虚拟,所以我们叫AI合成主播。AI合成主播和人类的关系是代替还是配合这个问题的话,如果只是感知问题,不涉及到后面的语言组织、撰写深度稿件的话,它是可以去跟真人接近的。

媒体:意思是人可以做写新闻稿的人,剩下的事就交给它?

王小川:如果想做到惟妙惟肖,好比什么处所该发怒,什么处所该柔情,这样的事情机器很难做到,因为稿子的内容机器是不懂的,股票配资利息它不理解真正的含义。如果只用视觉和听觉表达,AI合成主播可以接近真人,一旦与内容有高度相关性,机器的作用就会弱一些。

媒体:搜狗的AI合成主播跟微软小冰做的主播有什么差别?

王小川:搜狗的AI合成主播是真人的形象,小冰给的是虚拟形象,声音跟真人不一样,也没有心情和唇型的变革。AI合成主播真的是合成之后,能够起到真人的替身作用。

媒体:这个技术除了在主播领域,还有哪些其他场景的应用?

王小川:好比说此刻我们跟凯叔讲故事谈,以前是凯叔去讲故事,以后可能就会酿成你的爸爸妈妈给你讲故事。在我们大的理念下,主播是其中一块,之后要把它个性化,酿成其他的人。

媒体:搜狗此刻有考虑进一步怎么去做么?

媒体:在语言这块,门槛并不高?

王小川:语言这块门槛挺高,高德舆图合成林志玲的声音的时候,林志玲是读了非常多句话的,不是固定的“向左转向右转”的句子。搜狗此刻只要求十几分钟的数据量就够了,可以用很小的数据合成一个人的声音。

媒体:为什么?是有什么算法的打破吗?

王小川:所谓小数据其实也是离不开大数据的,机器要看很多声音,然后找到这个人的声音特征跟别人有什么不一样,所以小也是大。我们以前说婴儿学习很快,看一张图片就会了,其实他是看了很多图片之后再看一张图片。所以对特定领域来说,数据越小越好,但是要把握足够多的通用领域的数据。因此这里涉及到的技术,既要有海量声音的训练,同时能做到用更少的声音数据训练特定人的声音,这是有技术壁垒的。

媒体:合成主播商业化的节奏会不会比之前做的其他AI落地的项目要快一点?

王小川:最快的话,第一是翻译,翻译是刚需。不但是翻译宝,搜狗搜索支持用中文搜索全球信息,用中文阅读全球信息,这是应用了翻译技术的。翻译是搜狗的使命之一,输入法输入中文转成外文,搜索能搜外文转成中文。我们自己是做信息桥梁的公司,所以翻译是很重要的,这也是最快落地的技术。首先是语音、图像,然后是翻译,翻译之后是分身,训练一个人的数据之后,帮手他去做表达。最后是问答,就是个人助理,帮你回答问题。对于消费者而言,这是技术演进的路线。

媒体:搜狗做通用训练的时候,语音素材是怎么拿到的,是平常语音输入的时候的语音吗,还是怎么样的?

王小川:我们有很多合作,很多标注。好比此刻我们跟喜马拉雅有合作,他们读的工具我们可以拿过来用,尽可能多的收罗差异的语音。

媒体:除了医疗以外,搜狗也在做法律相关的内容搜索,对这种领域的选择尺度以及下一步扩展垂直搜索的规划是什么?

王小川:首先最大的是医疗,法律是中间有明显的常识布局化能力在,这个常识界限是相对有权威和规范的,在这种情况下,我们可能去做一个选择。但是医疗还是远远优于法律的。

媒体:搜狗还会扩展其他领域吗?

王小川:其他领域,百科我们还是想努力能把它做得更加权威和真实。总之有些领域,互联网的信息不足好,我们但愿能够在里面能用新的方法做好,用AI技术或者用差异的方式。

媒体:为什么要做搜狗号,这块内容是怎么样的,为什么要介入这个市场?

王小川:因为今天做平台,股票配资鑫东财配资就像头条或者像抖音,一头是用户在里面去消费,一头出产方是合作关系,这种合作不是光签合同的,确实能够做个平台,把它放进来了,但搜索引擎不是,搜索的模式是抓来的,头条号或者说像这样的搜狗号很大意愿是但愿增加内容的合作比例,是更规范,好比这里各人广告做多少,有必然的互相的共识,这样能够提升合作的内容和质量,让用户体验更好。

媒体:会觉得做得晚吗?

王小川:再早对我们讲也不会成为战略上的打破点。

媒体:这种信息流的改变会给搜狗带来更大的营收吗?

王小川:会有一些,信息流广告主要是基于APP,搜狗APP或者浏览器,能有些增补。如果APP量出格大,收益是大的。

媒体:之前您说一直刷抖音,刷头条,很容易着迷进去,搜狗号能不能改变这件事情?

王小川:我们做搜狗号很大层面是为搜索处事的,而不是只说为做信息流这件事情。第二,有些工具改不改变,好比游戏,我们就不做了,对我们而言,从我们兴趣喜好经验上不是游戏,游戏一样,满足你着迷在里面,一直获得虚拟世界,有太虚幻景表达这样的概念,人是需要的,但是怎么去引导,我们没有这方面缔造引导能力,我们愿意把我们的优势发挥在我们本身擅长的处所上,我们让信息表达更加简单,我们做翻译,我们在中间去做问答技术。

媒体:搜狗搜索以后在流量渠道或者获客层面有什么样的想法?

媒体:搜狗AI方面战略还是比力聚焦的,有没有考虑相关多元化或者更多AI的软件或者科研或者硬件?

王小川:不考虑,我觉得我们已经张得很开了,我们在信息文明时代核心就是对常识或者对语言的理解,做AI我认为要满足几条,今天说AI是属于大公司做,大公司有几个,第一个有场景,有数据,所以你做AI,如果你没场景,没有数据,只做技术,这件事情是很困难的,我们数据和场景是在用户表达和信息获取里,在输入和搜索里,所以我们围绕场景做这件事情。第二,中间是需要在这里面有连续的投入,投入里很多创业公司或者没有商业模式的公司,它今天投这样,如果哪天市场没打开,那可能这个工具就掉下去,我们是有足够资金去投,但是也但愿跟可见的商业价值去匹配,我们做翻译已经没有考虑商业,已经在拓展,我们最近一共支持500场同声传译,我们已经努力往外拓展的时候,往外拓展不是考虑商业问题,还是围绕我们的使命来进行,就是表达和获取信息更简单,以及未来让机器部门代替人或者给人提供处事。

媒体:纯真同传这个问题,机器有没有可能代替人?

王小川:不能,做不到。如果用好的人,机器是赶不上的,但是有很多处所是因为你没有优秀的同传或者出国旅游没法给一个人配一个人,这种情况下,机器可以去作用,翻译往简单走是重复性劳动,但是真的好的翻译是有常识,有思考的,你让他思考的工具,机器就没人强,开放性思考,如果只是棋盘上封闭思考,机器下围棋,可以干,但是开放性的环境,机器是不足的。

媒体:会考虑在多媒体搜索上有一些结构吗?

王小川:搜索核心是以语言为核心的,如果离开了文字,只是画图,这是不足的。我们是有图像搜索能力,有声音去做搜索,但核心要点是在阅读理解,这个事情不是我们最受益或者是我们打破点最大的处所。我们打破是在语言的理解里面,这个更难,比5G还难。

媒体:从硬件的产物上,未来有可能做OEM吗?

王小川:有可能,但是此刻通过本身的工具把它给做透了,再开放,就像亚马逊一样,之前做echo的音箱,也是本身做,本身做才有机会跟别人一块玩,不然第一天就是B2B2C,你不知道客户在哪儿,或者跟客户没有形成正面的习惯,to C公司不足的,先把本身做透,然后发现能力不足了,再开放。

媒体:要达到真正的AI个人助理,还要多久,还要打破哪些工具?

王小川:我们之前20年,我们称之为信息时代,每个时代都有它的起点,就像最早轮子发明,有了农业时代,轮子发明,可以推着小车去种地了,这是原始走过来。后来有蒸汽机,进入工业时代,后来有了计算机和互联网,我们进入信息时代,信息时代大的特点就是能够跨地区,跨时间,时空跨越进行信息的通报。像e—mail或者IM就能跟各人进行长途的交流,或者把信息放在网上,然后你用搜索检索到,在这种情况下,输入法、搜索引擎和通讯软件是对新时代最核心的应用,你刚才问的问题是AI个人助理往下20年里很重要的事情。

媒体:它真的到能够很好地帮手人,协助人的阶段,还要多久?

王小川:垂直领域慢慢就有了,真的辅助人,给普通人做翻译,也是AI助理,以前靠真人,此刻靠机器能做一部门了,再往下,像我们垂直场景里,我们也在做机器帮你做自动答复,给销售公司或者客服公司在用。他已经开始在做,但是他需要领域支持,是要靠人把这种常识进行训练之后再做,不是只有思考能力。所以往下是靠数据驱动做这件事情,你让它只会帮手人,他此刻没有代替人,此刻看不到技术代替人,但是帮手人的事已经开始发生了。

媒体:这里是卖解决方案吗?

王小川:我们是to C,我们会把它用到消费者,让消费者使用更方便。

媒体:AI合成主播或者未来做的AI合成影像,未来的使用场景是什么样?

王小川:合成主播,今天给我们核心能力要做对话和问答,同时可以互动的,因此在医疗,在法律,在一些人机交互里,负担了一个让人更友好沟通的角色,但真正处事内容是去要面对内容的,就是把处事带进去。另外一种场景就是今天看到一种,交给新华社,他们有编辑在里面写出稿子来,机器只是读的角色,是单向的,不是双向的,所以他只是自然交互,在常识计算里还没有把这个能力放进去。

媒体:搜狗未来的战略是AI+IoT(物联网),可以这么理解吗?

王小川:IoT只是一个界面,我不能把IoT放在这么高的高度去,AI是核心,去帮手人表达获取信息,IoT只是中间帮手你表达获取信息的入口。

媒体:搜狗为什么不做智能音箱?

王小川:这个产物的核心点在于足够低价自制,不是靠技术驱动的,没有这方面的能力,只能靠资金驱动,没啥AI在里面。相当于亏着钱卖,像打车外卖是烧钱的活,我们其实是不会做的,没那个能力。

媒体:人工智能赚钱的拐点是什么时候?

王小川:人工智能是项技术,你说技术赚钱,这个词是不创立的,你要酿成某个业务才气酿成赚钱的事情。并且人工智能技术尤其还需要数据驱动,所以小公司更困难。它是一个场景,能做附加的工具,这个不是从拐点上来看的。所以这是社会大分工、让数据交换,让小公司给大公司提供技术处事,看此刻的趋势,人工智能还真是大公司的事。另一条,如果当局做了很大的数据开放,可能会带来新的投资机会,即是小公司有机会获得数据了,如果当局开放数据,可能会带来新的机会,这个事不知道会不会发生。

媒体:科创板块有一个新的进展,会不会投资一些公司?会不会本身上。

王小川:我们模式不会变的,我们不会投资赚钱,这不是我们干的活,我们做不外其他专业机构的。谈到我们本身,因为我们在美国已经上了,国内环境,科创板块如果做乐成了,有巨大的意义。但是这工具就看政策,只知道这个事发生了,但是最后怎么演化,但愿它乐成,对中国是革命性的意义在。

媒体:在选择2C智能硬件的产物的时候,您觉得此刻还有哪些场景不被满足的?

王小川:第一,需要有更好的录音笔,真的是给老师,自媒体的人做演讲的时候或者双方谈合同的时候,只要有商务活动都能用到,这是需要做的一件事情,但还不是品牌性的产物,要是能力上有升级,会有新的产物,我认为努力带来各人一起新的技术的思考,也可能是跟硬件厂商合作。

媒体:在数据及隐私掩护这块有什么新的变革吗?

王小川:第一尊重隐私,掩护隐私这是属于很严肃的话题,得去做遵守,是符合法律和用户的文化,但是我们知道如果一边倒,隐私不行侵犯,这个视角是出格有害的,因为只有别人了解你的个性,才气给你更好的处事。所以这种情况里,从社会整体的价值看,个人能够把本身一些数据开放开,让企业知道,可以提供更好的处事,这种事情在安详情况下,该去提倡的一件事情,所以欧盟的做法,最后会把本身坑死掉的,用户消费者也不买账,最后没能处事升级,倒酿成整体掉队了。

媒体:当搜狗新开一项业务的时候,什么是取决于这个业务要不要开,最大的思考维度是什么?

王小川:第一个,我们知道未来趋势是什么,这个得知道,这是一个源头。但是第二个事情为什么是我们做,我们在做这事的时候,跟我们价值观也好,跟我们的能力也好,跟我们当前的状态也好,有什么样的关系。为什么是我,这个事情也是很严肃的事。这个事最好有全局的使命,如果这是在趋势里,在你的使命里,你会努力去做。

媒体:在搜狗公司您对本身的定位更像职业经理人还是联合首创人?

王小川:其实我双重属性都有,我同时负担着首创人的精神作用和引领方向,但是因为股权关系,我又得像职业经理人干活,这个是挺独一无二的状态。

(责任编辑:)
------分隔线----------------------------
发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
评价:
表情:
用户名: 验证码:
发布者资料
查看详细资料 发送留言 加为好友 用户等级: 注册时间:2018-12-16 17:12 最后登录:2018-12-16 17:12