从纯机器发音到人工智能
既然前文提到了“Siri”,那就来说说被炒得热火朝天的智能语音助手。国外有苹果Siri、Google Now;国内有讯飞语点、百度语音助手等。这些软件支持自然语言输入,能“听懂”用户的话,能帮助用户查看天气预报、安排日程、搜索资料甚至查询订票。
讯飞语点
对于这些重视“人—机”交互的语音助手来说,有三大声音技术是其必须迈过去的门槛:声音合成、语音识别、语义理解。
语音合成,使电脑具有类似于人一样的说话能力;语音识别,让电脑能够“听懂”人类的语音,将语音中包含的文字信息“提取”出来。对于两项技术,目前的软件已经基本都能达标。
但是,语义理解就是一个很难攻破的堡垒了。现在的语音助手或许知道用户说了那些字,但很多时候无法领会文字背后的真正意图。Siri就曾被谷歌诟病“听不懂人话”。所以,去年苹果公司为了宣传Siri的理解能力还特地制造了一场“找三陪”的事件营销:
苹果Siri的“嫖娼门”
通过Siri搜索“哪里能嫖娼?”,它竟然会提供多达数十个有“三陪服务”的娱乐场所。这功能虽然涉嫌违法,但也从反面证明了苹果Siri的进步——“谷歌你不是说我听不懂人话吗?告诉你,我知道嫖娼和找三陪是一个意思!”
语义理解,需要语音软件拥有强大的自学习能力。这就要求软件开发者拥有一个庞大而完善的数据库来提供数据支持。但是现阶段的智能语音应用还没有整合足够多的生活信息,而且汉语中庞杂的多义词、近义词、反问语气、俚语、俗语等非常规语态的存在,也给开发者编写算法造成了很多麻烦。
调戏Siri的结果
总之,智能语音助手的语义理解能力,和当今的人工智能技术联系紧密,其难度之高并不是一家或几家公司就能完成的。对于这类应用来说,现在只是开始,这种新兴的软件还有很长的路要走。智能语音真正深入到我们的生活,还需要好多个Siri级别的应用来引爆。