百度大脑今日宣布语音能力引擎日均调用量超过100亿次,应用规模业界第一,为开发者提供了覆盖云、端、芯的全栈全场景语音开放能力,推动智能语音技术在各行业落地应用。
论坛上,百度大脑语音引擎全新发布和升级了14大产品内容,包括基于百度鸿鹄语音芯片的4款硬件模组、开发板及3大场景解决方案,升级了语音自训练平台、呼叫中心语音解决方案等。
百度首席技术官王海峰博士在现场表示:“AI技术的进化和产业赋能正向循环,相互促进,AI在应用场景中不断进化。”
“百度的语音技术基于深度学习和产业应用加速突破,已应用到百度App,百度地图、小度音箱,百度输入法等百度产品,更通过AI开放平台赋能众多产业伙伴。百度大脑语音能力每天的调用量已经超过100亿。”
百度语音首席架构师贾磊正式提出基于复数CNN网络的语音增强和语音识别一体化端到端建模技术,称该方法抛弃了数字信号处理学科和语音识别学科的各种先验假设,消除学科间壁垒,直接端到端进行一体化建模。相较于传统基于数字信号处理的麦克阵列算法,错误率降低超过30%。目前该方法已经被集成到百度最新发布的百度鸿鹄芯片中。
百度从2012年起就开始把深度学习用于中文语音搜索,成为全世界最早把深度学习技术落地工业化产品的企业之一。百度大脑目前已开放了云、端、芯包含语音识别、语音合成等全栈语音引擎能力,并广泛应用于金融、政务、文娱等多种行业和场景。
百度AI技术生态部总经理喻友平表示,百度大脑语音能力引擎的应用规模已达到业界第一,一直在积极拓展语音能力引擎生态链的建设。
针对智能硬件设备,百度大脑重磅发布基于百度鸿鹄语音芯片的4款硬件模组、开发板,以及智能家居、智能车载、智能IoT设备3大端到端软硬一体远场语音交互场景解决方案,具备交互效果优异、软硬一体快速应用、广泛兼容集成门槛低等优点。
同时,在语音识别领域,全面升级短语音识别、实时语音识别能力,发布音频文件转写能力,升级可零代码提升业务术语识别率的语音自训练平台,以及呼叫中心语音解决方案;
在语音合成方面,发布6个在线语音合成精品音库和5个离线语音合成精品音库。语音能力,助力智能硬件、互联网、呼叫中心等领域智能化升级。
创维AIoT研究院产品经理李凯介绍:“大屏IoT的行业痛点在于信息检索难和设备控制操作复杂,通过增加语音交互能力,重构了整个AIoT设备生态的交互体验。双方在电视方面的合作成果已落地在10个电视芯片型号、2500万台电视上,助力中端及高端产品线提升了产品溢价能力。”
据百度介绍,在下一代远场语音方案中,百度鸿鹄语音芯片为创维产品带来高性价比硬件、整合优化的软件算法等价值,双方将基于百度鸿鹄芯片展开多项产品的合作。
今年年初,百度还提出截断注意力模型SMLTA,使得句子的整句识别率、方言的识别以及中英文混合的识别率显著提升,也是在全球范围内第一个实现语音识别领域注意力模型的大规模工业在线产品落地。
首创Tacotron+wavRNN联合训练,成为全球首个上线waveRNN技术的语音平台,大幅提升云端合成速度,语音合成的自然度几乎达到真人的效果。
百度地图20句话即可录制语音导航的技术基于百度独创的风格迁移技术Meitron模型,特点主要体现在音色转换、多情感朗读和韵律迁移三个方面,从而让语音合成的门槛大大降低。
百度大脑开放平台是国内服务规模最大的AI开放平台,目前已开放228项AI能力,拥有超过150万的开发者用户。
这是百度首次在语音市场这样公布成绩。百度CTO王海峰会上亲自宣布语音技术日调用量破百亿数字,居行业第一,可见百度铆足劲头做语音的决心。
这个领域,垂直做语音的科大讯飞曾经呼声很高,今年4月的数据,讯飞称宣布其日均总服务量为47亿次,几个月不太可能翻倍。
过去一年,讯飞的日子也不好过,科大讯飞市值从最高峰1000亿元缩水到726亿元;随后又陷入“同传造假”和“卖地疑云”。
随着百度公布了语音技术日调用量破百亿,国内第一,讯飞也会面临更大压力。