2011年苹果Siri的问世,让很多人见识到了“语音软件”的强大。其实早在二十年前,台式机上就出现了号称“将取代键盘”的语音输入软件,不过当时的用户实在难以接受它们奇慢的输入速度和奇高的错误率。之后,语音技术被用在社交领域,90年代末铺天盖地的语音聊天室让“声音”成了最常见的人机交互方式。
从当年的“ViaVoice”到今天的“讯飞语点”;从当年简陋的语音聊天室到今天已经上市的“YY语音”。20年来,语音软件发生了哪些故事?
到底能否取代键盘?解析语音软件进化史
声音软件:从“语音输入”开始
说到与声音有关的软件,早期要以“语音输入”类为代表,例如IBM在90年代中期推出的“ViaVoice”。这是一种通过麦克风输入中文的程序,用户只需要做对着话筒喊出要输入的字符,ViaVoice就会自动识别并且输入汉字。
这款软件诞生后,国内企业立刻跟着做出了好多类似产品,如“汉王听说系统”、“天音话王”、台湾声硕公司的“说亦通”。这些软件都打着“解放你的双手”旗号,一时间风光无限。
我们来回顾一段当时1999年时“汉王听说系统”的产品介绍:“用户通过话筒,以正常的语速朗读文本,计算机就可自动识别。而且产品设有语音回放功能,对没有被识别的部分,可直接用汉王笔进行修改。”“语音与手写输入的结合,既保留了语音识别速度快的优点,又发挥了笔输入在编辑修改方面的长处。听写输入将成为汉字输入的主流。”
这种软件看似不错,其实也只是“看上去很美”罢了。首先,语音输入软件的输入效率低。当时汉王听写系统的录入效果只有60字/分,而且错误率高。如果用户将一篇较长的文章全读完了再从头修改,工作量依然很大。其次,这种软件对文章的前后逻辑性要求很高,连续语音识别仍存在较大问题。此外,这种软件对同音词、多义词的识别仍有较大缺陷。
20世纪末,计算机刚刚进入中国家庭,很多人不熟悉键盘操作,所以能代替键盘的语音输入软件就格外受欢迎。等几年后电脑普及开来,人们的打字水平普遍提高,这种语音输入软件也就不再有市场了。看看现在的办公室,“哒哒”的敲击键盘声已经基本否决了当时语音输入厂商的“主流”判断。
语音合成软件
除了语音输入,90年代的“声音软件”还有“语音合成类”。这种技术能使电脑具有类似人一样的说话能力。笔者记得,当时语音合成技术被广泛应用在学英语的软件上,什么轻轻松松背单词,洪恩英语,金山词霸等,后来还衍生出各种听书软件。
早期的语音合成技术非常简单,效果也很粗糙。软件只是把自带语音库中的字词直接拼接起来,所以听起来生硬无比。这项技术至今也还在发展阶段。而作为最基本也是最高的要求,“自然流畅”似乎永远也没有尽头。
通讯工具
说话是最快捷的交流方式,它在社交活动中不可或缺。而上述两种“高科技”声音软件的交互目标都是“电脑”,不是人。真正把信息重心回归到“人”身上的软件,反而是没什么技术含量的“语音聊天室”。
十几年前,中国的网吧里随处可见“抢麦”的聊天室用户。他们大声喧哗,时哭时笑,虽然不怎么雅观,但激情四射,无可阻挡。正因为语音是比文字更高效的通讯手段,所以它成为聊天室后无数通讯、社交工具标配功能。
通过上面的介绍我们不难发现:从语音输入再到语音聊天,“声音软件”其实分成了“人—机”、“人—机—人”两种交互模式。第一种是技术流,重视技术沉淀和数据积累,延续到现在就是Siri、讯飞语点这样的智能语音助手;第二种则是服务流,重视人与人之间的社交需求,QQ、微信、陌陌就是如此。下面我们就从三个方面来详细解读这些语音软件。