百度地图语音定制功能启示:百度正在用AI改变一切

文|吴俊宇

美国鬼才科普作家詹姆斯·弗拉霍斯用《智能语音时代》这样一个题目形容了现在语音科技对人们的影响。

他的副题目很有趣——商业竞争、手艺创新与虚拟永生。

在他看来,每十年左右,人与手艺的互动方式就会有一个根本性的转变。数十亿美元的财富会“恭候”那些界说了新的时代范式的公司,而落伍者将破产倒闭。

语音正在酿成影响现实的通用遥控器,成为险些能控制任何一种手艺装置的手段。语音打破了天下上一些最有价值的公司的商业模式,为新的应用缔造了机遇。

这一次,百度舆图用语音定制功效同时展现了品牌营销和手艺积淀的双重能力。其中的语音手艺未来的ToB、ToC领域也都有宽阔的运用空间。

品牌营销的创新

已往舆图行业经常找来明星站台,通过明星语音包的方式睁开品牌流动。

这种计谋简直卓有成效,事实上,不管是汤唯、林志玲语音都很受用户的迎接。然则要知道,明星的粉丝究竟圈层有限,明星语音可能仅仅只能吸引一部分粉丝用户,想要真正扩大圈层,实现营销破圈,可能要接纳一些其余计谋。

不外有趣的是,9月19日,百度舆图公布语音定制功效,直接推出了用户定制专属语音包。

定制方式很简朴,打开百度舆图App,叫醒“小度小度”后说“录制我的语音”,或点击百度舆图首页的“出行助手”后进入“语音定制”,便可开启语音定制之旅。在平静的环境中,随着百度舆图指引,念出卡通和影视台词等充满意见意义性的录制文本,守候约莫20分钟,就能拥有一个自己专属的语音包。

百度舆图事业部总经理李莹

最后你就可以用自己的语音包替换掉其他明星语音包,可以在百度舆图的景区智能语音导览、智能语音交互、导航等所有场景使用。

让用户使用舆图时听着自己的语音,这或许是一个对所有人来说,都是个饶有意见意义的实验,这种实验的有趣之处在于:

1、知足新鲜感;明星语音已经是市面上大部分手机舆图的通例操作,由于传导机制的差别,人们听自己声音与自己声音的录音往往差别,这种“巧妙而羞辱”的感受往往比明星语音来得更有趣。

2、打破了圈层;明星语音究竟只是一部分粉丝群体会选择使用,然则自己的语音却是所有人都感兴趣的,不花一分钱请明星做代言,不针对少部分粉丝用户群体,直接用手艺手段笼罩所有用户群体,这种计谋可谓是四两拨千斤。

可以说,这既是一次营销流动,也是一次手艺展示。而且两者有着很好的连系,

已经很少有品牌营销能够真正让手艺能力获得释放,然则百度舆图这次做到了。它让手艺和营销软硬兼备。

语音手艺的跃进

这个功效主要应用了百度独创的气概迁徙手艺Meitron模子。

所谓气概迁徙这个观点最早来源于图像领域的观点,简朴说就是:将一张图片的艺术气概应用到另外一张图片上。

语音的气概迁徙实在也被称作是“语音克隆”(voice clone)、“多语言人气概迁徙”(multi-speaker)、“气概迁徙”(style transfer)、“语音转换”(voice conversion)。

要知道语音的气概迁徙异常难题。

由于深度网络对于语音处置难题。一来不如图像和文本领域研究火热,二来语音所具有的信息,难以编码到高维隐空间。一段语音时间序列中,混杂着以下方面的信息:语言人特征(如一小我私家的音色,音调等);语言学内容(语音表述的内容);副语言特征(如情绪等)。

2017年,美国曾有一篇名为《Style Tokens: Unsupervised Style Modeling, Control and Transfer in End-to-End Speech Synthesis》的学术论文讲述气概迁徙的问题。

百度舆图这次接纳的Meitron模子其特点主要体现在发音人音色转换,多情绪朗读和韵律气概迁徙三个方面,从而让个性化语音合成的定制门槛大大降低。

要知道,已往明星舆图语音的录制异常贫苦。以高德舆图的林志玲语音为例,它的制作分成两块。

一块是根据录音稿录制出来的语音内容。另一块则是高德那时找专人,跟了林志玲几个月,贴身录音,把原始声音文件处置提取出数字特征。再接纳通用的、很完善波型合成手艺,将元音、辅音及音调等采样,通过算法实现文语转换。

这是2014年明星语音天生的处置方案——看完你也许会想,录个音实在太难了。

然则在Meitron模子下情形就不一样了,这个模子背后的手艺支持是百度大脑语音手艺的赋能。AI的加持让舆图语音包生产实现了从月级别到分钟级其余突破性希望。

百度语音首席架构师贾磊

该模子是现在行业领先的语音合成手艺。用手机即可完善复刻语言者的音色,气概,情绪等。

关键是,仅仅只需要20分钟就能所有天生。也就是说,未来不管是什么明星,他们的语音只需要在Meitron模子里跑20分钟,基本就能天生一个完整的导航语音包。

语音合成能力越强,实在也说明未来人机交互、语义明白的可能性越大,机械阅读的能力越强。

短短5年时间,AI加持下的语音手艺可谓突飞猛进。百度大脑的实力可见一斑。

未来商业的连系点

这次品牌营销实在也是百度语音手艺的一次能力展示,它未来在ToB侧、ToC侧都可以有更多连系之处。

好比深度神经网络手艺,提供高度拟人、流通自然的语音合成服务,让客户的应用、装备启齿语言,更具个性。

1、教育和阅读类产物:让课程和解说变得更生动

通过阅读类APP阅读小说或新闻时,若是使用语音合成手艺为用户提供多种发音人的朗读功效,释放双手和双眼,获得更极致的阅读体验。

2、生涯和服务类产物:让服务交互效率得以提升

语音合成还可应用于打车软件、餐饮叫号、排队软件等场景,通过语音合成举行订单播报,让用户便捷获得通知信息。面部识别则是可以睁开主顾识别、订单校对。

3、智能硬件类产物:让人机流动变得更鲜活有趣

可集成到儿童故事机、智能机械人、平板装备等智能硬件装备,使用户与装备的交互更自然、更亲热。

固然,对百度舆图自身而言,这次语音合成手艺的使用使其人工智能舆图的称谓名副实在——所谓人工智能舆图指的是,在AI赋能下,舆图在交互体验、位置信息、出行服务以及出行决议等方面产生了重大变化。

对ToC用户来说,未来的百度舆图会具备更多AI能力和语音交互能力,它在使用历程中会变得更便捷、更智能,好比说,连系用户的使用习惯和当前的场景,通过用户画像、深度学习等能力,给每个用户带来个性化信息和服务推荐。

对ToB用户而言,未来的百度舆图同样可以运用AI能力和语音交互能力,为客户和商家基于语音的地理位置服务,连系人口漫衍、客流剖析、设施漫衍等多项大数据剖析服务;面向计划、房产、商业、零售等行业提供解决方案。

当“你应我答”的模式泛起,在人与人之间、人与机械之间,攀谈就绝不只是一种纯粹依赖逻辑睁开的历程。语言永远不是脱离内容的外壳,人都会被语言影响或感动。

未来,我们与无处不在的机械组成的天下,将是一个前所未见的加倍丰富多彩的感性天下。

詹姆斯· 弗拉霍斯有这样一个设想:

在云时代,“只要简朴地加上一个麦克风和一个Wi-Fi芯片,任何装置都能实现语音驱动。从浴室的水龙头到孩子玩的布娃娃,任何装置都能行使漫衍在全球的几千台盘算机所提供的盘算能力。”这险些意味着“万物能言”的童话天下真的实现了。

在这样的天下之中,商业逻辑和产物逻辑也将有着更多改变。语音可能真的要成为舆图等产物的入口之一。

留下评论