全国免费服务热线021-61659662

新闻中心

关于我们
公司动态
行业动态
成功案例
全国免费服务热线
021-61659662
待人热情,办公快捷;
诚信为本,客户至上。

主页 > 行业动态 >

搜狗展现唇语帮助语音辨认工作原理:精确率显著晋升了

2019-09-28 11:51:07

  [PConline资讯]2017年年底,搜狗在乌镇“世界互联网大会”上发布了通过唇语辨认帮助晋升语音辨认正确率的初步结果,成为业内首家。近日,搜狗宣告发展一年多的唇语辨认模型的正确率,跟最初的50%~60%比拟已有很大晋升,并到达了能够将底本独破发展的唇语跟 语音辨认联合起来,构成“多模态”辨认的程度。

  搜狗于2016年4月22日捐献1.8亿元给王小川的母校清华大学,结合成破“清华大学天工智能盘算研讨院”,致力于人工智能范畴的前沿技巧研讨。本次颁布的语音跟 唇语的多模态辨认恰是由该结合研讨院主导。

  相干论文《基于模态留神力的端到端音视觉语音辨认》在本年5月12-17日召开的国际声学、语音与信号处置会议(ICASSP)颁发,这是由IEEE主办的国际语音辨认、信号处置学界的顶级会议。

  搜狗方面对海内科技媒体“量子位”先容了论文重要内收留。据先容,将唇语辨认参加单纯的语音辨认,须要战胜两个重要题目:一是和谐音视频的不同帧率(个别音频为100fps,视频为24fps),二是公道断定音频跟 唇语内收留对全部辨认成果分辨奉献多大比例。

  显然,这一比例毫不应当是固定下来的。有的时候,语音十分清楚可辨,此时视频内收留搞不好反而带来烦扰;另一些时候,语音比拟含混,这时才应当公道晋升唇语辨认的比重。搜狗采取名为“基于留神力的编码器/解码器”的方式来动态断定当前时刻混用唇读跟 语音辨认的比例。

  搜狗方面表现,该论文去年6月破项,10月实现送达,其中濒临一半时光用来处置比例题目。

  在语音清楚可辨的环境中,视频的“留神力权重”约为35.9%。当信噪比为0dB(即噪音音量跟信号声音差未几大)时,视频的“留神力权重”晋升到濒临40%,此时“多模态辨认”的正确率比拟清楚环境进步了30%。

  在一段演示中,人们模仿在地铁运行环境中谈话,同时记载下口型。单纯辨认语音的成果是“北京今每天气走”,单纯辨认唇语的成果是“嗯北京今每天气怎么样”,合起来即可得到准确成果“北京今每天气怎么样”。

  语音交互技巧核心首席迷信家陈伟预计,联合视频读唇的语音辨认可能会用于将来的搜狗手机输入法,及联合了摄像头的汽车车机导航等环境(也就象征着届时输入法将恳求摄像头权限以晋升辨认正确率)。

相干浏览:

搜狗进行股权构造变革:腾讯持股38.2%!

//pcedu.pconline.com.cn/1256/12563359.html

搜狗推出阿拉伯语AI合成主播 将落地海外市场

//pcedu.pconline.com.cn/1255/12551476.html

搜狗2019年第一季度财报:营收为17亿元

//pcedu.pconline.com.cn/1253/12539859.html

 



上一篇:没有了
下一篇:Facebook没有再容许华为在智能手机上预装其利用程序!