热门关键字： 宏观解读约稿沈良

13届国际期货大会：科技发展与信息安全论坛实录

　　陈雨强：人工智能赢在维度

　　陈雨强：非常感谢主持人的介绍，也非常有幸能在这样的场合和大家进行交流。刚才各位专家提到Fintech已经在金融领域有了很多应用，其实现在在很多的高频交易，在交易本身、数据本身，我们已经做了很多的尝试和探索。但是人工智能现在是越来越热的词，大家也可能听说过非常多关于人工智能的关键字，深度学习、用户画像等，各行各业的人，除了互联网以外的也会摩拳擦掌说我们的企业如何能被人工智能改变。今天带着这样的疑问、这样的思考想和大家分享，人工智能到底有什么样的能力，人工智能将如何帮助企业成为一个提升运营效率，成为下一代企业发展的支柱。

　　今天我要和大家分享的主题叫“人工智能赢在维度”，我是第四范式的陈雨强。

　　企业运营效率对现在的竞争时代越来越重要。这里有两家非常重要的公司，大家很熟悉，一家是亚马逊，一家是沃尔玛，两家都是非常伟大的零售企业公司，这两家公司虽然说都是做零售，但是两家公司在最近几年日子过得可不太一样。传统的超市，大型连锁超市其实在最近几年过得并不太好，他们每年的收入增长其实一直保持零增长，甚至有时候会达到负增长。但是同比会看到亚马逊在这段时间里，他的成长一般在20%-40%之间，不好的时候也有10%的增长。里面就会有非常大的差距，为什么有很大的差距？可能会把原因归咎为亚马逊是一个电商，是一个互联网企业，沃尔玛是一个传统的企业。所以说可能会有差别。但是如果我们真实的看一下，因为沃尔玛其实也做转型，他也收购了一些电商的平台。但是它背后的原因，本质是什么？有学者做过调查，调查有这样的发现，他会发现，平均来说，每个亚马逊员工为亚马逊贡献的收入是62.1万美元，同步到沃尔玛，每个沃尔玛的员工为沃尔玛提供的收入是22万美元，相差3倍。相差3倍的差距让沃尔玛和亚马逊在效率上有巨大的差别，因为效率的巨大差别，导致亚马逊不断扩大企业规模和市场规模，抢到更多的用户，不断蚕食沃尔玛的市场。电商之所以比传统零售有更快的增长，秘密就藏在效率里面。

　　我们说到沃尔玛公司，其实它并不是菜鸟的公司，大家知道人工智能、大数据之前还有一个概念叫数据挖掘，数据挖掘里面有这么一个例子，啤酒和尿布的例子，大家可能听过。一家超市发现每周五晚上的时候，一个订单、一个购物小票上，啤酒和尿布经常出现，他们找客户调研人员研究这个问题，原来是美国有些超级奶爸在周五下班之后开车去超市买一堆东西，他买尿布的同时会买一打啤酒。发现这样的规律之后，超市就做了决定，把啤酒和尿布放在相近的货架上，发现啤酒和尿布的销量同时发生增长。这是最典型的数据挖掘的例子，现在也是广为流传的例子。这家超市就是沃尔玛超市，沃尔玛是数据挖掘的鼻祖级的角色。为什么这么一个角色的公司会在现在处于下峰相对于亚马逊？原因在于这么一个分析的结果上，你可以认为沃尔玛做的推荐是基于位置的推荐。沃尔玛在全球有10700家门店，这些门店根据你的国家省市地区、人种，各种不同的区别，它会不同样的安排货架，这10700家货架都不一样，用数据挖掘的方式会给当地的用户一个最好的排布的方式。他要解决的问题难度，作为沃尔玛来说是1×10700的难度。但是对于亚马逊来说，这个问题的难度就变得更大，因为亚马逊是个性化推荐的始祖，个性化推荐是你看到的亚马逊和我看到的亚马逊完全不一样，每个人登录亚马逊，亚马逊几十万、上亿的产品给你展示的方式都是不一样的，你可以认为整个商场对每个人不一样，亚马逊要解决的是1×3.04亿，如果有3.04亿的用户。这个问题差1万倍的复杂度，导致亚马逊比沃尔玛在效率上有3倍的提升，因为亚马逊解决1万倍复杂度的问题。这是2C端的例子。

　　企业经营内部经营的部分，同样也有解决问题复杂度提升带来效率提升的例子。亚马逊货舱跑的红色的小机器人。整个大大的仓库里面，机器人到处跑，会把货架运到每个拣货人的面前，拣货人员去拣货。对于传统拣货的问题，同一个货仓，N个人去拣，是N×1的复杂度。如果N个拣货人员拣N个货仓，问题的复杂度是N×N，问题复杂度的区别导致拣货效率有很大的差别。作业速度，亚马逊要比沃尔玛要高出4倍。总结一下，现在这样的企业效率其实是需要通过解决更复杂的问题来去提升效率的。你可以看到，正因为刚才效率的提升，导致亚马逊的效率不断的攀升，不断蚕食传统企业沃尔玛的市场，给消费者更好的体验。可以看到传统沃尔玛比亚马逊大很多倍，但是市值上，2015年的时候，亚马逊已经超过了沃尔玛，成为了最大的零售行业。市值也是非常高。

　　总结一下，运营效率在当前会变得越来越重要，因为模式的创新、投资的拉动、市场的增长，带来的空间越来越小，过去20年，过去很多年，中国是快速发展的社会，过去只用靠新产品、新渠道抢市场，我就能享受人口增长的红利，商业增长的红利、互联网增长的红利，可以享受这样的红利。但是随着发展到了一个瓶颈，这些红利会越来越小。在红利越来越小的时候，你就不能通过跑马圈地的方式来扩张你的企业，这个地就这么大，你只能通过提升自己的运营效率，抢别人的地。开始的时候，谁先到60分，谁抢更多的地。地分好以后，80分的人抢60分的地，这是新的商业下最重要的事情，就是提升企业的运营效率。企业的运营效率在当下是最重要的指标，如何提升企业的运营效率呢？就是做更复杂的问题，能解决更复杂的问题就有更高的效率。人工智能是被认为最好解决复杂问题的技术。

　　人工智能在很多地方听过很多关于人工智能的介绍，关于人工智能的案例可能都听说过。人工智能看起来很虚，或者离得很远，有些做人脸识别、有些做语音识别、有些做翻译。其实人工智能没有这么复杂，人工智能做的是民族的暴利，人工智能是看一大群人，看他们怎么行为，通过他们的行为来判断出这群人或者其他人什么行为。比如我们要卖东西，卖耐克鞋，有这么多人，我们要从黑人找出想买鞋的人，大数据的做法是用两个维度分析这个事情，比如性别、年龄，想买耐克的人是说年轻的男性，喜欢买得多，但是年轻男性肯定也有不想买的。我们对这些人营销，但是你会发现年轻男性里面可能有人不想买，也有很多人不是年轻男性，但是他想买鞋，不够精准，效率就不够高。同样这么多有需求的人，为什么只找到这些，而且效率不高。怎么解决民族暴利的事情？如果只用两个维度描述，如果用男女描述，这个东西给男人用或者女人用，不合理。解决套路很简单，就是用更高的维度、更多的规则把空间画得更细。右上角的图，如何让营销做得更加精细，通过更多的维度把空间画得更细，每个格子更精准，该找的都找到了，不该找的一个没有进去。这是新一代人工智能机器学习的方法，通过精细化解决更复杂的问题，原来解决四维，现在解决几十维的问题来提升整个运营效率。

　　从另外一个角度来看，人工智能大家都知道，我们的数据是呈长尾分布。传统大数据是基于头部分析，头部很重要，性别、年龄，或者头部用户很重要，谁都知道。在座所有人都知道北上广深这里面的用户是高价值用户是我的目标用户，不是北上广深，不是金融行业或者什么行业的人，是不是我们的用户、是不是我们的客户？是的，怎么找到他？其实就是长尾部分，长尾部分的价值更大。中国可以挖掘出很多的人和很多的价值。传统的领域里面做的是什么事情？抓大放小，既然我只关注头部这些人，我就用一些规则或者一些专家的经研究可以抓大放小，把最关注的人抓出来，但是用人工智能技术来说，你可以做到面面俱到，把所有的人、所有关注的事情都做到。人工智能面面俱到是第一个特征。人工智能做全数据的问题，而不只是采样数据的问题。很多地方说我有很多数据，很多数据并没有真正用到数据的价值，真正的人工智能用上数据价值的人工智能是全数据人工智能，什么问题用全数据？复杂的问题，比如说你要统计的是全国男性还是女性更喜欢你的产品，你找几十个人就可以得到结论。行业最大的公司和行业初创公司没有区别，因为都可以得到一百个用户。如果问题很复杂，你要做到1亿个维度，你关注很小的人群，在全中国就20个人，一家最大的公司和一家小公司就不一样。如果全中国20个人组成的人群，你只有那些大的公司才能有这样的数据，才能做合理的分析，但是一家小公司就没有办法分析。好的人工智能是可以把数据的价值发挥到极限，是可以把每个面面俱到的点分析到。你不能只分析高频部分，高频部分所有的人分析都是一样的，这是同质化的，没有优势，有优势的是长尾部分，谁拥有更多的数据，谁在长尾部分做得更精细，谁获得更高的运营效率。

　　怎么获得这样的能力呢？大家可能听说过深度学习，这代的算法基本上是万级别的变量深度学习，语音、图像等，跟人眼输入量类似。对于下一代的机器学习，我们其实需要的是万亿级别的变量数的深度学习的方法，为什么这么说？因为我们要解决的问题很复杂，对于感知问题，识别物体或者声音，这时候用万级别的输入足够，如果提供商业服务，提供决策时候，客户数量很多、产品数量很多，你要做的决策很多，这些组合会非常多，这些组合每个都是一个变量。刚才说的变量是解决问题的点，因为要解决复杂问题，这个解决问题的点很多，会上万亿。互联网中，不管是Google还是百度，都做到上万亿，让系统的效率得到很大的提升，需要这样的系统才能让整个人工智能发挥最大的价值。

　　这里介绍系统架构，现代最新的技术，包括我们公司第四范式研发的最新技术，能够让上万亿机器学习的系统成为可能，用高性能的并行计算让这个事情成为可能。举Facebook的例子，Facebook在2012年5月份上市，如果大家熟悉这个公司，可能知道它上市以后就破发，破发很惨。直到2013年、2014年之后，它才不断的走上正规，股票一路上升。这是我们外面看到的表象。内在的原因是什么呢？我们也有很多同事在Facebook的核心收入部门，也就是搜索广告，也就是信息广告部门。2012年的时候，我们和他们聊，当时他们的维度，其实就是问题的复杂度，只有两千个维度，而这时候Facebook广告营收能力很弱，广告部精准、效率低，单位广告变现比较少。怎么研究单位广告变现？展示一千条信息，然后能拿到多少钱，这个效率是低的。后来换新的人工智能系统，把两千维的特征变成两千亿维的特征，让整体效率有了大幅度提升。从当时的CPM有数倍的提升，单位的变现效率数倍提升，导致股价一路攀升。解决问题的复杂度决定整个公司运营效率和公司的整个成长。

　　互联网的例子，金融领域有没有同样的例子？其实也有，这是我们公司和一个全国性股份制银行做的例子，信用卡交易中心，每天有上百万笔信用卡交易，交易之中可以选出一部分发送短信进行营销，说是否进行分期，分期可以获取手续费。分期这个事情对他来说，分期的响应率，你发短信他响应你这是很重要的。当时用的人工智能的方式让他们的响应率提升68%，收入提升61%，这是很大的提升。背后隐含的是什么技术、怎样的方式做了这么大的提升？我们把他们的目标进行分解，我们把分期收入变成短信量乘以短信响应量乘以费率，选取一个优化目标短信响应率，我们用历史营销数据做机器学习模型，这是高维度的复杂的、困难的问题，而做高维度问题，最后应用到线上得到刚才的效果。我们当时使用了这么多的数据库中的数据，有2TB，相对有点大，银行和金融领域有更多的数据。四千万条训练数据，产生五千万维度的问题，刚才说到的沃尔玛是3.04亿维，这里面我们受限于数据，做五千万维度的数据问题的规模，这样的模型我们获得刚才的效果。它的维度很高，不依赖于专家，全部从数据终寻找新知识。非常容易扩展，我们当时对比的是专家系统，他们写了5年，非常厉害。但是你想200条规则加1条规则都很困难，任何规则不和原来的规则冲突，还要保证有新的提升和帮助，很困难。可扩展性、灵活性和不断子却起义（音自动修正错误）是它的特点。除了开始很好，在上线之后、投入生产之后，不断每天的迭代，让它知道发哪些短信被接受或者没有被接受，很好，和AlphaGo接受一样。这是完整的专家规则很难以达到的点。

　　人工智能的技术为什么带来这么大的提升？这是我们做的交易分期，还有一个汽车分期，这是大额分期。这个模型很好，提升两三倍。有一个特征是某个POS机刷卡的情况下，它做分期概率很高。为什么一个POS导致分期效率高？专家分析，POS机是母婴店的POS机，母婴店就是家里有小孩，有了新人，可能要换新车或者有新的需求，所以他们就买车，买车就需要分期。这些事情专家都会，各行各业都有专家，这些专家都可以分析出来，关键点在于这家公司或者这个POS机、母婴店大概只有上百笔的交易。上百笔的交易对于国有股份制银行要服务上千万家商家的银行来说，上百笔交易这样的小POS机根本不值得专家分析。所以这是为什么人工智能能赢？赢在它的不知疲倦和迭代进行计算。这些专家都可以写，但是专家不可能像我们写出五千条规则，机器可把判断简单问题变成判断复杂条件的问题，这样他的效率就会明显提升。

　　人工智能有一个特点，不管是传统领域还是新领域，不管是银行还是证券还是期货，只要有数据，机器可以从数据终获得价值。我们在很多领域获得很多的应用，包括电商、理财、差异化定价，这只是一部分，人工智能能改变的地方还有很多。

　　第三部分，刚才说的理论背后的事情，这个事情其实背后也是有个科学道理的，科学道理不是我们胡诌出来的，谈到人本身的事情，随着人的发展，人脑的容量不断变大，人的智力不断提升。人脑的智力某种程度取决各方占比于人脑神经元的数量，机器也是如此，大家听到很多算法，各种各样的算法，这些算法有什么区别，有什么关系？他们谁好、谁不好，到底是什么联系？这个理论可以解释，两位俄罗斯科学家做了一个理论，VC维理论，这是统计机器学习的泰斗，机器学习人工智能的创始人。两位科学家在60年代到90年代之前提出VC维理论，这是泛泛分析的理论，描述的是一个函数拟合复杂数据的能力。从另外一个角度可以类比的是，人类脑细胞的数量，越高的脑细胞数量代表你越聪明。越高的VC维模型高于低VC维模型，刚才说的算法，不管是深度学习还是其他机器学习模型要看VC维，高VC维就是很好的潜力模型，如果VC维不高，潜力模型就不好。

　　用VC维理论解释这个问题，我们为什么说解决更复杂的问题就能够提升效率呢？因为更复杂的问题VC维高或者更复杂的模型VC维高，高VC维效率更高。

　　人工智能高在哪里？人脑容量有限，人思考方式不一样，人不能记住所有事情，人做的是总结、归纳和提炼。牛顿看到苹果砸到自己头上总结了牛顿三定律，机器做一个事情，大部分时间都是成立的，但是高速情况下，其实并不成立，高速情况下应该用爱因斯坦的相对论，这个事情给机器做，机器会把这个事情变成更复杂的问题，把速度分成三千万个小区域，每个区域总结一个牛顿三定律用数据的方式，拟合数据更加准确的模型。这两个模型不同的角度描述这个事情，人和机器获取智能的方式不一样，机器不能像人一样只做三条定律，而是做得更加复杂，这样效率更高。这样的理论有很多成功应用，之前我在百度，我们可以看到在百度的时候，百度从2008年竞价排名变成了智能排序，用广告的点击率进行排序，你会发现整体上的收入，4年提升8倍。它的背后是1万条专家规则提升到1千亿条规则，实施反欺诈我们和金融领域做了Case，原来一千条专家规则做反欺诈，你是欺诈还是不欺诈，盗卡欺诈，我们做到25亿条规则，让它的整体效果提升了1.8倍到5.94倍，提升很大。我们也做个性化内容分发，之前在今日头条，后来在第四范式做了很多推荐相关的问题，我们能做到真正的个性化，让每个人拥有不同的推荐。我们把规则从一百条规则到100亿条规则，整体的点击率提升30%-35%，包括时长也会有很大的提升。

　　总结起来，你要提升一个企业的效率要解决复杂的问题，解决复杂问题就需要高VC维的模型。

　　大家都说人工智能是有一个Gartner曲线，说人工智能要毁灭人类，又说是骗子，什么都不能干。为什么有这样的区别？人工智能有一个局限，我们总结起来，人工智能在什么时候超越人类？人工智能如果写出一千万条规则就可以超越人类，一个专家究其一生只能写10条规则，这是求一生的毕生所学。如果机器写出一千万条，他在很多方面都比人类高出很多效率。

　　这里有另外一个例子，IMgenet，这是做图片识别的比赛，2010年到2015年的识别错误率不断下降，下降到比人类的图象识别的错误率还要低，人类识别错了，机器都识别不错。另外一个角度，看VC维，问题的复杂度不断上升，从一开始大概30万的VC维变成1亿的VC维，因为这样的VC维的背后，VC维提升导致效果不断提升。

　　最后这里给大家总结一下，包括Facebook、亚马逊等很多例子，我们会发现VC维的上升带来AI能力的提升，AI能力上升提升企业运营效率，最终提升企业的竞争力。

　　这就是我今天给大家的分享。谢谢大家！

　　主持人：从陈雨强先生激情澎湃的演讲中，我们看到，超高维度的AI技术可以帮助企业进行以往无法想象的精细化运作，从而大幅提升企业运营效率、提升企业核心竞争力。让我们期待AI技术的全面发展。感谢陈雨强先生！下面请允许我介绍中云网安科技(北京)有限公司首席技术官汤姆林登先生。汤姆林登先生是一位经验丰富的高级管理人员，同时拥有个人10项专利发明，现在有请他从信息安全的角度解读AI技术的发展。

责任编辑：翁建平