微信 5.0“扫一扫”发布的时候,被讨论得最多的是它所承载的商业化重任。
被忽视的,是背后的技术,及技术蕴藏的趋势。
同样地,这个版本亮相的微信自主研发语音识别技术,也为外界所震惊和质疑。“腾讯能够一夜之间自研成功语音识别技术?”类似质疑遍地都是。
在独家采访微信“模式识别中心”团队后,我们发现两个产品功能并不是孤立地存在的,而是人工智能技术武装微信的两个投射。微信走向智能化,不是从这两个功能起步,也显然不以其为终点。
本文揭秘了微信产品背后的故事,介绍“模式识别技术”的未来形态,以及科研与产品开发的关系。而我们更关心的,是微信乃至整个移动互联网正在发生的变化:越来越智能化。这是由移动设备和移动产品丰富的连接性引发的变革。正是得益于如此丰富的连接性,人工智能基础技术得以从多方面渗透进来,燃起穿戴设备的热潮,掀起电视、汽车、家居、医疗各产业的变革,真正拉开科技改变生活的序幕。
1/3 博士,2/3 硕士的高学历团队
“模式识别”是人工智能的一个分支,在上个世纪 60 年代成为一门学科。所谓模式识别(pattern recognition)是指对表征事物或现象的各种形式信息进行处理和分析,以实现对事物或现象进行描述、辨认、分类和解释的过程。模式识别对象包括文 字、语音、图像、生物传感器、心电图、脑电图、地震波等等。对应到 IT 领域,主要是指文字、语音、图像、与 IT 相关的传感器等,如 iPhone 5s 新增的指纹识别功能,将来也会属于“模式识别”研究的对象。
微信的模式识别中心也是一个研发中心。据团队负责人陈波介绍,他们隶属于微信北京研发中心,研究方向包含语音识别、图像识别、语音合成、音频指纹、语义理解、数据挖掘等等。不过由于这个研究型团队辖属于微信,他们不只负责理论研究,还对接产品功能开发。
模式识别中心原先不属于微信,其前身是腾讯研究院下属模式识别小组,2010 年 9 月成立。这个小组面向整个腾讯公司提供基础研究成果的服务。比如诞生之初就为 QQ 输入法提供手写识别功能。2011 年腾讯内部创新热潮起来后,这个团队拓展研究领域,扩展到人脸识别、图像检索、文字识别等,集多种图像技术于一身“QQ 慧眼”就是这个团队研发的。2012 年 9 月,该团队正式划归微信管辖,随他们一同到微信的是当月发布的微信 4.3 版本中的通讯录语音搜索功能。
为什么基础研究团队要整合到微信团队?陈波给出的答案是:“一方面微信是引领移动互联网潮流的产品,对视觉、听觉延伸的东西需求很大;一方面技术成熟,到了基础领域研究落地阶段,微信是一个比较合适的平台”。
目前微信模式识别团队有 40 多名成员,都是高学历多能人才。据陈波介绍,40 多名同事中,有 1/3 是博士,2/3 是硕士。还有一个类似比例是:整个团队 1/3 从事前沿技术研究,2/3 从事现有技术研究和产品对接。
关于团队的研究方向,陈波介绍主要分为语音和图像两个小组,语音研究对应的是手机上的麦克风,由博士生卢鲤带领 12 个人负责;图像对应的是手机摄像头,由博士生刘海龙带领 13 个人负责。“小组是比较成熟的方向。除了小组之外,我们也有其他研究方向”,陈波说,“包括文字识别、人脸识别、语义理解、视觉搜索、音频指纹检索等”。 除了科学研究团队,模式识别中心还有一个工程团队与微信产品团队进行对接。
据陈波介绍,她的团队不是纯粹搞研究,不只会写 paper,还有很好的开发能力。他们没有专门的手机开发人员,都是自己搞 iPhone 开发,把 demo 秀出来;遇到产品问题,也要与产品团队共同解决。在招聘人才方面,模式识别中心也是把关严格,要求研究与工程能力兼备,所以团队过即使加入微信后也没有膨 胀发展:团队成立之初是 2、3 个人,去年加入微信大家庭的时候是 30 人左右;加入微信后,现在团队是 40 人出头。相对于竞争对手,这仍然是一个精干的团队。
“两盒烟,三个月”,一诺千金
微信 5.0 加入自主研发语音识别技术,引起震动。很多人不相信腾讯能在一夜之间靠自己研发出这种高门槛、长周期、重积累的技术。行业龙头老大科大讯飞创业 10 多年还在不断完善这种技术——当然,讯飞在语义识别、云平台服务、串联产业链方面扎得更深。
但是,世界上没有奇迹,也没有“一夜之间”的传奇故事。
腾讯模式识别团队成立于 2010 年 9 月,前期图像技术成熟,较早落地。但它的语音识别技术起步晚,2011 年底才正式启动语音识别自研项目。显然,这个项目的启动受到了当年苹果发布 Siri 语音助手的影响,后者引发语音产业热潮——科大讯飞的股票迄今已经翻番。
到今年 8 月,语音识别自研项目历时一年半,模式识别中心终于攻克语音识别技术难题,并在微信 5.0 产品中正式亮相(“语音输入”功能)。由于模式识别团队属于研究型队伍,在前期主要集中于积累基础技术,加上腾讯的低调作风,才给外界造成“一夜之间冒出来”的感觉。
事实上,在此之前模式识别团队曾为微信开发多项人工智能技术。比如 2012 年 9 月发布的 4.3 版本中的通讯录语音搜索功能,2013 年 2 月发布的 4.5 版本中的语音提醒和“摇一摇”搜歌。但微信 4.5 版本中的“语音提醒”功能才引起外界对其语音技术的关注,一方面与微信受到的关注度相关——微信 1 月刚刚中旬宣布达到 3 亿用户,成为一个庞大的移动 IM 平台;另一方面“语音提醒”功能非常显眼,不像“摇一摇”搜歌或“扫一扫”那么隐蔽或难于理解。
关于微信 4.5 版本的“语音提醒”功能,外界所不知道的是,它差点无法在该版本中发布。最终顺利发布,这后面有一个“两盒烟,三个月”的故事。
去 年 10 月 8 日,国庆长假刚刚结束,模式识别中心语音组组长卢鲤与团队负责人陈波到广州与张小龙交流工作。“张小龙希望语音提醒在 4.5 版本上,我说技术不成熟,做这个事情没把握。我说了半个小时,小龙一言不发,最后说‘那你们觉得需要多长?’我咬咬牙说起码得 6 个月。小龙又一言不发,走开了”,卢鲤回忆到,“他回来后,手里拿了 4 包烟,开会的人有 4 个人抽烟,一人一包,包括他自己。这烟我没抽过,我看了烟,又咬咬牙,说‘要不 3 个月’,他听了之后,把他手里那包烟也留给了我。”
(微信模式识别中心语音组负责人卢鲤)
从 10 月中旬到 2 月初,除去春节假期,产品上线差不多就是 3 个月(期间进行一次封闭开发),卢鲤顺利完成了任务。烟为什么对卢鲤有这么大的吸引力?答案在这个对话里:
ifanr:平时通过什么方式来放松?
卢鲤:我的方式是抽烟。
微信 4.5 版本发布的“语音提醒”功能,使用到较复杂的语义识别技术。比如“早上 7 点半起床坐 718 路公交车上班”,需要把“7 点半”理解为时间,把“起床坐 718 路公交上班”理解为事件。这在语音识别中反而是较复杂的。今年 2 月该功能发布后,它对语义的理解能力做得不错,但会有一些错别字,说明语音识别还不太完善。微信 5.0 发布的“语音输入”功能,识别率很准确,甚至在人名、地名、专有名词识别方面给人以惊喜。说明通过一年半时间的努力,模式识别团队在语音识别领域赶上了行 业水平。
技术与产品,谁驱动谁?
上个月在日本 NTT Docomo 总部采访的时候,我们了解到 NTT Docomo 由于对 3G 技术做了非常深入的研究(它是全球第一家商用 WCDMA 3G 网络的运营商),忽略了配套产业的建设,反而制约了 3G 业务的发展。Docomo 提给中国运营商的建议就是要与终端厂商做好沟通,与产业协同发展。
相 反的一个例子是,我们今年 5 月在上海采访来自 Kickstarter 的创业团队SmartWallit,他们很早就想利用蓝牙技术做防丢设备,但由于蓝牙 4.0 技术(更省电)一直没有大范围商用(2010 年 7 月公布技术规范),一直拖到 iPhone 去年 9 月真正支持蓝牙 4.0,及 Galaxy S3、Note 2 机型出现,他们才觉得时机到了。
这类技术与产品谁主导的矛盾经常存在。那么对于隶属于微信的一个科学基础研究团队来说,是技术驱动产品,还是产品驱动技术?
陈波的答案是:更多情况是技术驱动产品。“产品在定需求的时候,往往不知道一种技术能做到什么程度,需要通过足够的时间预研、探索才能知晓”,陈波说,“预研成熟后,产品的主导会比较多。比如技术本身有很多弱点,那么产品上就要想如何去扬长避短”。
据陈波介绍,腾讯做产品比较讲究敏捷开发,但他们搞基础研究并不完全倡导敏捷开发,要以技术的成熟为前提。“不过一旦技术差不多 OK 了,可以面向用户,接下来就走迭代路线。我们让研究跟着产品走,怎么做优化、怎么做评测、发展到什么程度才能上线,都跟着产品的节奏来”,陈波说,“差不 多一半时间预研技术,一半时间跟着产品节奏走”。
我 问陈波前期做技术预研会不会参考其他产品的现有技术。比如微信“摇一摇”搜歌和 QQ 音乐的“听音辨曲”跟海外 App 产品 Shazam 功能很相似。陈波说很多技术都有相关可参考的学术论文发表在国际期刊上,Shazam 有这样的论文,Google 也有论文。她的团队经常研究过去做到了什么阶段。“做基础研究,大量的文献阅读是必要的”,陈波说。
(微信模式识别中心总监陈波)
做研究与做产品有很多不同。最大的不同是,基础研究更讲究“谋定而后动”,要沉下心去想,临门一脚揣不出灵光来。在我所认识的产品团队中,“封闭开发”一般 是指把团队拉到郊区,吃喝拉撒睡全在一起,不与外界接触,甚至与家人朋友也鲜有电话联系,几乎是与世隔绝的状态,这样才能保持极其高效的开发效率。陈波说 他们的封闭开发不是这种封闭形式,“封闭开发是更像是一个口号,态度上要更认真,时间上要更紧迫”,她说,“基础研究不是逼出来的,它要有一个认真思考的 环境,要沉下心去想。如果催促着要上线,它是做不出东西来的”。
目前陈波的团队进行过两次封闭开发,一次是“两盒烟,三个月”承诺之后,一次是为了保证微信 5.0 的语音功能上线。每次“封闭开发”周期为两个月,封闭开发期间,下班会比较比较晚。“我们会把节奏盯得更紧,快速地达到目标,按产品的节奏去做研究。”
“基础研究没有‘失败’,只有时机”
模式识别团队从 2012 年 9 月加入微信团队,至今一共开发了五个大功能:通讯录语音搜索(v4.3),语音提醒(v4.5),摇一摇搜歌(v4.5),增强版“扫一扫”(v5.0)和“语音输入”功能(v5.0)。我问陈波有没有失败的项目,她的回答很有意思:
很 多东西我们不认为是失败。有些技术目前没有发布,不代表将来不需要;可能只是这个阶段没有,在未来一定会有。比如我们做的很多增强现实(AR)的东西,现 在无线带宽不允许,因而没有发布;但 2、3 年后网络不再是问题了,技术就能够落地。我们不会 care“你做的东西没有用”或“短期没有用处”,我们不以这个作为技术衡量的标准。
她以 4G 网络的发展举例。“增强现实和移动视觉搜索技术,现在费了很大精力去做流量限制(比如“扫一扫”扫描封面 /CD/ 海报会有前端后端做各种判断以减少流量,最终控制在几 KB)”,陈波说,“但是以后在 4G 时代,流量更宽裕了,可以做很多事情,比如展现更酷炫的效果,把增强现实带到前端来”。本月初我的同事何宗丞在美国参加高通 Uplinq 大会的时候就看到了高通这方面的技术研究成果。不过据爱范儿了解,国内 4G 牌照要到 11 月才会发放,至少一年后 4G 才能迎来蓬勃发展,意味着受网络条件的制约,各类创新技术要在国内掀起热潮仍有待时日。
回到微信的话题,“现阶段没有”的一个功能是“名片识别”。在 8 月 5 日微信 5.0 发布前,我们曾听说微信可能发布名片识别功能,对名片全能王这类产品将形成冲击;但这个版本发布后,名片识别功能不见踪影,他们又松了一口气。据陈波告诉爱范儿,名片识别功能确实将会发布,但目前还在提高准确率,“有了良好的用户体验后才会考虑发布”。
除了名片识别外,据说 4.5 版本的“摇一摇”搜歌发布前陈波也经历煎熬。“当时该功能在 4.5 版本中是一个不确定发布的功能,但大家积极性很高,经常周末过来加班,当时甚至想干脆不发了。不过最终还是做出来了,而且做得很不错”,陈波说加入微信 后,感触最深的是微信团队的执行力,“微信团队的最大优势是超强的执行力,大家都带着梦想做事。比如‘打飞机’游戏就是一个人两个星期开发出来的,人脸识 别也是 1 个人做出来的”。
我让陈波用三个词来形容自己的团队,她使用的是“精益求精”、“兴趣爱好”、“踏实”。并作出解释:
精益求精:对于基础技术研究来说,精益求精很重要。从测试级、训练级到评测,准确率能做到 99% 一定不做 98%。这从产品上可能没什么概念,但从技术上来讲,它意味着让用户失败了很多次。
兴趣爱好:很多创新是由兴趣驱动的,对这一行不热爱、不喜欢,是创造不出好东西来的。比如我们在招人过程中,不会为了扩张而扩张,而是每个人都要有他的价值,是否热爱人工智能技术。
踏实:搞基础研究,一个小的方向,由 1、2 个人做,从头到尾做很多事情,包括 demo、实验、效果总结,需要踏实的心态去做。我们做研究,做到了 90%,如何把剩下的 10% 做好,就要耐得住寂寞,要有好的态度,持续的追求。
目前陈波的团队除了研究新功能外,日程表上排在前面的还有各种优化工作,包括扫一扫中封面、条码的识别率,语音识别的精度,本身库的搭建等等。她说团队也在 考虑如何做开放平台,把他们的自研技术开放出来,供大家使用。“更多人来使用,才能更好了解用户需求,才能更容易看清未来趋势”。
模式识别技术下一步怎么走?
出乎意料地,陈波说团队面临的最大困难竟是”用户对人工智能(模式识别)的期待“。
“很多功能都很好,用户会问为什么不能实现”,陈波说到,“我们做的事情是模仿人的大脑,但人脑神经网络非常复杂,目前的人工智能远不能匹敌,用户对它的期望 很高,需要做引导,让用户理解”。卢鲤举语音转文字(5.0 的“语音输入”)的例子,“这相当于一个初中生脑袋能干的事情,现在要让机器去完成,是比较有难度的”。
陈波认为虽然短期内麦克风、摄像头和其他传感器可能没有大的爆发点,但长期来看,它们一定会非常重要。“摄像头、麦克风的应用仅仅刚开始,看起来很火,但与 大脑相比,差得好远”,陈波充满信心,“比如穿戴设备,由于没有很好的传感器,还没有被引爆。但是科技潮流的发展方向是不可逆的,它一定会在某个时间点爆 发”。
拿眼下的麦克风和摄像头这类“入口”来说,在移动互联网之前,它们是安防领域的标配,到了移动互联网就成为移动设备的标配。“标配是干吗的?还不是让人的生 活更方便嘛。标配就有可能成为入口。”不过陈波认为语音识别或图像识别领域都还处于发展初期,无法成为替代性的东西;她说将来也不可能完全替代现有交互方 式,只是所占比例会越来越多,比如 Google 就已有超过 10% 的搜索就来自语音搜索。
模式识别中心图像组组长刘海龙举了一个例子,拿图像识别领域的视觉搜索来说,除了完善现有的 5 个“扫一扫”功能的库容量外,将来也可以扫描三维刚性物体,或由商家自定义用户想找到的东西——类似于 Google Glass。这是微信的重要产品理念:所见即所得。在刘海龙看来,摄像头应该是视觉的延伸,“它就是我们的一双眼睛”。
(微信模式识别中心图像组负责人刘海龙)
我问陈波微信加入各种功能,包括模式识别技术领域的功能,会不会变得越来越臃肿?她说微信的基本格局一直没有变,只是在各种入口之下,承载了更多东西。“不 是臃肿,而是添加了更多创新的东西,很多用户喜欢。”她举的例子是摇一摇搜歌,“一开始的时候我们还没有信心,这个功能也做得很隐蔽,但是后来增长曲线很 健康,认可度和好评度都很高”。陈波说这个功能每天的服务次数在千万次级别,大约有 10% 的人搜到歌曲后会去分享。这是一个不错的分享比例。
至于人工智能可能的发展方向,比如 20 年后会是什么样子?陈波笑称把想象空间留给好莱坞的科幻电影。“钢铁侠、碟中碟 4 中有大量语音、图像识别技术,对未来产品形态作了某种诠释”,陈波会带着团队集体去看这类科幻电影,“期待有一天真的达到那个效果”。
“小龙看得很远”
外界能看到,张小龙顶着“产品大拿”的光环,产品能力、交互设计能力很强。
“外界所看不到的,是张小龙对未来看得非常清楚”,陈波说,“为什么他会重视我们这块?哪些东西要做储备,哪些东西未来很重要,他会给我们很多建议。他不仅仅 是告诉别人怎么做交互,他会看得更远,他看得非常远。我们每次跟他交流都是一个学习的过程”。张小龙会在陈波的团队涉及到某项技术研究方向的时候给予优先 级建议。不过她并没有指具体哪类技术。
模式识别团队每月会去广州和张小龙交流,有时驻扎在那边做 2、3 个星期联调。除了交流日常工作外,张小龙也会跟他们谈未来的趋势。比如穿戴式设备、身体健康相关、脉搏分析、人脸识别、Google Glass、物体检索方面。不过在被问到微信将来是不是与穿戴式设备联系越来越紧密时,陈波马上予以否定,“更多是小龙个人的爱好”。
据爱范儿从 HTC 方面人士了解,张小龙确实对硬件领域确实非常感兴趣,双方时有探讨未来的硬件形态。而在本月初三星发布 Galaxy Gear 智能手表后,张小龙在朋友圈暗示微信可能入驻智能手表平台。微信内部还有一个前沿的硬件实验室,现已着手从 NFC 贴条、汽车中控台等不同方向研究微信在物联网平台的应用。此前,友宝自动售货机及印美图这些基于微信平台的硬件交互创新也得到关注和支持。
我们稍后问到张小龙和微信团队具体关注哪些趋势。陈波表示张小龙更关注微信带来的交互变革及所依托的移动互联网对行业产生的影响。“随着硬件传感器丰富以 后,可以带来人与机器交互的革命性改变。”她讲到两个方面,一是硬件与软件结合,两者结合带来的变革会更透彻;二是随着语音、光学等传感器的发展,机器人 研究会取得进步。“机器人长时间发展不起来,因为每个传感器都很贵。将来科学家、极客都去研究,传感器本身就会发展很快,带动人工智能技术的发展”,陈波 说。
她拿无人驾驶汽车举例,“无人汽车拥有大量传感器,很多人都崇尚这个东西,将来到了一定阶段,无人驾驶汽车会因传感器的普及而得到更广泛使用”。不过她否定 微信会涉足传感器硬件的研究——iPhone 5s 搭载指纹识别功能,陈波说团队可能会基于 iPhone 的技术做研究,但不会自己去做指纹识别硬件——而是要保持团队接地气的气质,跟着产品战略走。“我们用小团队(约 1/3 人力)去研究很牛的产品,这是我们的理想”,陈波说到。
这也是张小龙和微信团队的理想。一年前,我们曾探讨微信之于物联网的意义:
也许,在所有人都在探索的移动互联网领域,微信还有可能重新定义被说烂的物联网、LBS、O2O。它所呈现的互联形态,不是复制超链接(hyperlink),而是去创造连接真实关系,连接所有物件,成为人机交互界面的微链(weilink)。
张小龙曾响应这个观点,并在今年 7 月腾讯合作伙伴大会微信论坛上提出“解决人与企业、人与设备的通信问题”:
最终,物联网会到来,微信不光连接人,还可以连接能上网的机器,每个机器都有个二维码作为设备 ID,在微信里可以和设备对话来控制设备。
可以预见,随着基础研究和平台相结合,特别是微信这种大型平台强化人与物的智能连接,会带来更多变革的可能。与传统互联网所不同的是,移动互联网因为具备更 丰富的连接性,基础技术得以从各方面渗透进来改变这个行业。这甚至是一种自下而上翻天覆地的变革,目标只有一个——更智能的人类生活。
如今,微信已起跑,Facebook 已起跑,福特已起跑, 苹果已起跑,百度也以“深度学习”起跑,Google 则跑得比较远……这条跑道,也许没有终点,但无疑会有越来越多身影。