注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

CHANGE,WE NEED!

哥们,属啥的?——属手机的!

 
 
 

日志

 
 

无所不在的语音用户界面(VOICE UI)  

2009-11-11 12:35:39|  分类: 手机的事 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
  林斌上周在北京接受网易科技采访时表示,“智能手机强大运算能力先分解声音数据,再通过3G网络的高速管道,声音数据才能够被谷歌成千上万台的服务器分析处理并反馈给用户尽可能精确的结果。”据了解,目前谷歌的中文语音搜索可以支持诺基亚Symbian S60平台、苹果iPhone和谷歌Android平台,这三个平台都是目前主流的智能手机平台。

无所不在的语音用户界面
微软研究院高级研究员 黄学东
  从计算机的历史来看,早期的计算机用户界面非常简陋,而今天的图形用户界面和早期相比不知要先进了多少倍——用户只需点击几下鼠标,就可以完成大部分工作;而在Internet上,用户点击几下诸如"点击这里"、"搜索"等链接或工具条,想要的信息即滚滚涌来。尽管如此,当今的用户界面仍不太好用,我们仍然致力于开发新的、更易于使用的用户界面,比如用语音技术来使用户界面更加可用,使用户在任何地方、任何时候都可以提取信息。
  一个例子我们首先来看一个例子:开车。假设你有一辆先进的奔驰320车。你如果是倒车,它旁边的镜子会自动倾斜,以照顾到各种情况,尾部装备的先进的雷达可以测出来你会不会撞车;你在开车前进时,雨刷会根据雨的大小而自动调节。这些都是通过车里的程序来控制的。但是,当雷达程序或雨刷程序出故障时,或参数没有设对时,这车子开起来肯定不自如了,也许有没有撞到人司机都不知道。在这种情况下,如果要把计算机的键盘或鼠标放到方向盘上或其他某个地方,是绝对不可能的,因为车里根本没有足够的空间。但是,如果你通过语言来命令汽车,则马上可以控制自如。所以,我们认为下一个推动计算机新时代到来的最关键的技术之一,应该是语音和通用的用户界面技术,这一技术可以使用户在任何地方、任何时候都能够获得信息,控制计算机。
  现代计算机用户界面在很多场合中是很不适用的。比如,当你在家里看电视时,你可以用遥控器来控制电视。而更理想的情况是,你喜欢看哪些频道,它可以储存;当你要离开家去上班时,你可以通过这个遥控器打开电视看看新闻,然后问问今天7点钟是不是有会议,如果有应该几点走。但实际上,当前的遥控器是很不够的。再如,你在移动过程中,如开车或在街上走,你可能有寻呼机或手持电话,通过它们你本可以进行一些操作,但传统的以键盘和鼠标为主的用户界面是不现实的,无法帮助你通过这些手持设备做些事情,而语音用户界面却可能会奏效。
  语音界面我们希望利用先进的语音识别技术、先进的语音合成技术和先进的语音理解技术,以及它们的整合,通过开发一系列的模型原型,来开发新的用户界面。这种用户界面可以满足家庭、办公室、移动过程中等不同场合的需求。我们希望开发一个小型的、可以随身携带的计算机装置,你可以通过用笔和语音来和它交谈,传达你的信息。它同时是你的手持电话、寻呼机,你可以用它来查询Internet网上的信息。开发这一计算机并不是要开发一个新产品,而是希望通过它来做一些基础研究,来定位用户的社交应该是什么样的形式;同时,更重要的是,通过它来重新设计用户界面——完全放弃现有的用户界面,考虑应该怎样用语音来实现一个全新的用户界面。这一界面是笔、语音和显示器(不可缺少的)三者的有机结合。
  在这种设备中,会用到什么样的技术呢?
  首先是连续语音识别技术。在这一连续语音识别系统中,按照传统的方式,基本上有4个模块:麦克风的语音进来(模块1),系统提取出比较有用的信息(模块2),然后通过声音模型(模块3)和语言模型(模块4)来识别,得到要识别的东西。在传统系统里,这些模型都是分开设计的,完全是孤立的;而我们现在的研究方向则是怎样优化这些系统,通过联合的优化来达到一个最佳的系统设计。这一识别系统是非特定人的,不需要训练,完全根据人、上下文、环境等情况来识别,错误率大概在7(百分号)~20(百分号)之间。它所需要的存储量是在22MB~32MB之间,如果加上一些限制,比如把词汇表做小一点,则可以大大减少存储量和错误率。
  其次,是信息提取技术,并把它和语音识别系统结合起来。现在我们在进行信息提取时,完全没有考虑到语音识别系统对不同的因素有什么需求,所以这两个系统是完全孤立的。我们需要进行一个大规模的并行的语音信号提取,然后通过语音识别系统的搜索算法来找出某一个因素应该用哪一个语音信号表示,即寻找最佳的信号表达。在语音信号抽取方面,我们采用了3种不同方式:MFCC、基于听觉模型的表达方式、PRP.如果将这三种方法加权组合起来,可以稍微提高系统性能;但如果把这些信号提取方法和搜索算法结合起来,则错误率可以降低15(百分号)。
  评论这张
 
阅读(800)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017