新股讯
创投您的位置:首页 >财经 >

一场看不见的“新基建”尝试

发布时间:2021-05-29 12:21:38 来源:经济观察网

经济观察报 记者 苏小 张宋笛五个人,互不相识,在不知道每个人具体工资的情况下,如何计算出他们的平均薪酬?

类似这样的计算,在宋一民团队为客户研发的产品中,每天都在大规模进行,行业称之为“隐私计算”,即在不需要看见用户原始数据和信息的前提下,以多方安全分析和建模的形式,“预测”更多相关信息。

隐私计算的专业表达是,在提供数据隐私保护的前提下,实现数据价值挖掘的技术体系,涵盖联邦学习、安全多方计算、机密计算、差分隐私、同态加密等技术。

这项技术是让互联网世界最值钱的数据资产安全流动起来的基础,宋一民想做的事情是,修建一个能让数据安全高效流动的基础设施。目前,这些数据分散在政府机构、运营商、各大平台、个人和其他数据拥有者的存储器里,成了看不见的数据孤岛。

一场疫情意外地拓展数字化深度后,中国隐私计算市场才真正被彻底打开。有人称2021年为“隐私计算商业化落地元年”,互联网巨头、电信运营商、第三方技术公司纷纷入场,政府、资本、创业者密集互动,一场看不见的战争正围绕数据基础设施展开,但挑战仍存。

宋一民是2019年回国创立数牍科技的。回国前,他和他在Facebook的同事蔡超超刚刚参与并完成对Facebook一项数据大漏洞的修补工程。当时,英国某政治咨询公司被曝光在未经同意情况下,从脸书获取并利用约8000万用户数据,进而影响了2016年的美国大选。此事件后,Facebook便更专注于保护用户数据,承诺将对开发者执行更为严格的数据访问权限。

当时,宋一民是Facebook广告以及隐私基础构架部门技术负责人,蔡超超是Facebook大数据应用及数据隐私项目技术负责人。再之前,宋一民曾在微软工作,蔡超超则任职于亚马逊。现在,宋一民是数牍科技创始人兼首席执行官,蔡超超则是联合创始人兼首席技术官。

两位创始人都是1986年生人,乍一看,蔡超超略微老成一些,宋一民甚至还像个学生,语速飞快,夹杂着密集的技术词汇。据说,他对创业有着痴迷般的情结,为了回国创业,还带回来了一大票拿着Facebook极高价值期权的工程师,他说,“还有一部分来自知名世界500强企业的好友和工程师对数牍的事业也都非常支持,但因为疫情影响,他们还没能彻底回国。”

回国之后的创业之路似乎颇为顺利。2019年8月,数牍科技正式成立,第一笔投资来自红杉资本中国基金(以下简称“红杉中国”)。当时宋一民还在美国,他有一次回国,想了解一下在国内隐私计算能不能做,有人给他介绍了红杉中国,但是双方还没来得及详聊,宋一民就因为工作安排回美国了。后来,红杉中国的投资经理张馨苑给他打电话,俩人聊了很久,宋一民发现,她对隐私计算非常感兴趣,也非常了解,“水平很高,擅长找趋势,很厉害。”再后来,招商局创投也进入了。数牍科技成了红杉中国、招商局创投和红点资本在隐私计算领域唯一投资企业。

数牍科技的第一个客户是联通数科。谈及跟联通的合作,宋一民说,“中国联通是最大的电信运营商之一,它有很多用户的基础数据,这些数据都拥有极高的价值,比如疫情期间开始使用的通信行程数据等,很多互联网大厂也都需要找他们合作。”

2020年2月6号,春节过后的第一天,那正是疫情最严重的时候,为应对疫情监控,联通数科几乎每天都在加班,基于平台沉淀的大量高价值的通信行程数据,如何能在保护原始数据的前提下助力疫情防控?这是他们极力想解决的难题。在调研中,联通最早看到了隐私计算方式处理数据的新技术方向,找了很多专业数据技术公司,其中不乏互联网大厂。在参与竞标的公司中,数牍科技可能是最年轻的一家。在那些“元老”级的厂商眼中,数牍科技并不知名,但恰恰是这家最年轻的企业,却一路过关斩将、通过了所有的技术测评,最终中标了联通的项目。

宋一民事后分析:“联通没有选择互联网巨头,除了其技术还不成熟外,还存在一个电信运营商和互联网公司之间的竞争问题。这些互联网公司,其实跟很多传统行业都存在一定程度的竞争关系,比如运营商、银行、保险等。”

这两个原因,既是事实也是横亘众多数据孤岛之间的可见沟壑。近20年来,网络世界不仅积累了海量数据,也早已在根本上改变了传统企业与互联网企业之间的关系,移动互联网巨头对技术应用边界的不断拓展和渗透,让传统企业苦不堪言。同时,在互联网巨头之间,彼此的护城河也在不断变宽加深,这是互联网时代的典型表征:流量为本、平台当道、生态至上,竞争越来越惨烈,寡头越来越明显,但数据资产越来越固化,跨平台、跨行业流动成本越来越高。

宋一民说,“这就是为什么我们一定要做一家中立的、纯粹的数据技术公司。数牍科技只是负责修建能够让数据流动起来的桥梁,做的是基础设施。如果说,互联网的上半场流量很重要,那现在流量的质量更重要。”

这不是他一个人的想法。随着大数据时代的到来,近几年间,已经有越来越多的资本和创业公司投身其中。

根据中国信通院的监测统计,截止到2020年12月,中国活跃的大数据企业已有3242家。其中大多发端于被称为是“大数据元年”的2014年(这一年的全国两会上,大数据被首次写入政府工作报告),次年8月,国务院颁布《促进大数据发展行动纲要》,大数据由此正式上升为国家发展战略。此后,大数据被政府文件和计划的高频词,不断被决策层提及。

对数据的立法进程也开始加快。2020年4月,中国首次将数据与土地、劳动力、资本、技术并称为五种要素,提出“加快培育数据要素市场”。一个月后,进一步提出加快培育发展数据要素市场。同年7月,《数据安全法(草案)》开始征求意见,同年10月,《个人信息保护法(草案)》公布。同时,经历了平台经济、新消费、新业态的个体消费者,也已饱受个人数据被滥用之痛,数据隐私意识已被唤醒,市场教育已经完成。

按照这个时间表,数牍科技算是后来者,但宋一民认为,他们的时机刚刚好。因为,市场需求真正起来了,而法治和监管的基本框架也基本成型。“这些都到了这个时间段,这也预示着数据这个行业到了一个拐点了。市场已经自发做了很多的普及,而且市场的期待值也提高了。”2020年,成立仅一年多的数牍科技营收已达到千万级,宋一民预计,2021年的收入能实现数倍增长。

由于行业刚刚兴起,在隐私计算领域,清晰的商业模式尚未完全定调。数牍科技成立至今,在不到两年的时间里,既卖隐私计算产品,也卖服务和维护。

这差不多是所有初创公司的共性,一是基于公司对现金流的实际需求,二是出于对市场商业模式的试探。宋一民说,一些收费模式还比较原始,只卖技术其实是一锤子买卖。我们希望技术搭建起来之后,后面还会产生一些技术之上的服务,而且这些服务,也会随着基础设施的搭建,形成网络效应。自去年开始,我们的服务收入已经比技术挣得钱多了。今年服务收入的占比会更高。

宋一民身上有一种不易察觉的“极客”特质,这很大程度上源自他的技术自信。他说,隐私计算这个行业里的真正玩家差不多130多家,但其中有不少还都是以前做“爬虫”业务转行过来的。他认为,走技术服务收费的商业模式,只有数牍科技最快跑出来了。“大家可能都想往这个方向跑,但能不能跑出来就是各家的事情了。这条路,其实对技术人员的要求非常高。所以我们的技术团队大部分都是国外回来的,因为国内前几年专门做这个领域的技术人员其实很少。”

数牍科技是一家典型的85后创业公司,90多名员工,绝大部分都比两位创始人还要小。可能跟宋一民和蔡超超的经历有关,他们格外青睐从美国知名科技或互联网公司出来的年轻人,这让这家创业公司看起来更显年轻。在数牍,没有严苛死板的科层制,上下班时间非常灵活,员工的经历与爱好也很广,比如漫画师、赛车手、摄影师,甚至有人是米其林星级厨师等。

宋一民是北京人,2010年在美国TEXASA&M大学拿到计算机硕士学位,在美国学习工作一共呆了差不多10年,其中有5年在Facebook,先后担任广告和隐私部门的技术主管,负责了照片墙(Instagram)广告服务、用户增长等大型项目,从0到1主导了Facebook与多家世界500强企业的数据协作和隐私计算项目。正是Facebook期间,他认识了现在的创业搭档蔡超超。蔡超超本科毕业于浙江大学,后来拿到了加州大学洛杉矶分校机器学习的博士学位。由于独特的“工程师文化”,在Facebook期间,俩人经常合作。

由于很早就关注到隐私计算的价值,且在国外实现了基于隐私保护的数据流通项目落地,两人创业的想法也逐渐萌芽。最初,他们想做一个“ID图”产品,就是那种可以把网络上很多人的ID轨迹联系起来的技术产品,他们想要实现的其实仍然是一堆去除掉隐私的数据,“可用但不可见”。这个思路也为后来创立数牍科技建立了创业雏形。

数据可用不可见,这也是几乎所有手握大量数据的公司希望发挥的最大效用,所需要的技术便是隐私计算AI的基础设施。今天,真正决定一家公司、一个产业、一个国家的数字化能力的,并不是数据量的大小,而是数据计算能力的高低。

业内普遍通过三种技术路径来实现隐私计算:多方安全计算、联邦机器学习、TEE可信执行环境。

多方安全计算来源于中国计算机科学家、唯一一位图灵奖华人得主、中国科学院院士姚期智。1982年,“出于好奇”,姚期智提出了一个“百万富翁设想”。他假设,两个百万富翁在街上相遇,都想知道谁更有钱,但又不想让对方知道自己拥有的真正财富。在没有第三方介入的情况下,如何让对方知道谁更有钱?为了解答这个问题,姚期智提出了多方安全计算框架,此后发展成为密码学的一大分支,今天成了隐私计算的底层技术之一。

联邦学习,又名联合学习或联盟学习。即通过一个机器学习框架,帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦学习最早由谷歌在2017年提出,目的是将用户在终端侧产生的数据只在手机本地进行模型训练,而模型的中间计算结果传至中央服务器,这样无需交换和传递原始数据,也可以最终得到模型结果,且模型效果无损。

TEE可信执行环境则是在CPU内建立一个安全区域,它在一个独立的环境中运行,同时使用硬件和软件来保护数据和代码,并且不受操作系统的影响。其中的代码和数据,保密且不可更改。

无论哪一种技术路径,目前都还很难说已经完全成熟,这也为隐私计算探索多种技术方案提供了更多可能性。尤其是数据量级越高,往往对隐私计算的技术要求也就越高。2020年年初,第一次中标联通项目后,宋一民说,“数牍科技是唯一可在亿级用户数据规模上商业落地的产品。”2020年年底,数牍科技再次被选中“2020年联通大数据公司数据科学研发平台建设项目”,数牍科技将基于自己的隐私计算平台,为中国联通建立对外数据服务平台,应用于与银行、保险公司等企业间的数据协作。

除了中国联通,这家成立不到两年的公司,已经陆续拿下一些国有银行、上汽通用、天安人寿、泛华保险等客户。这给了宋一民更大的自信,“今年,业务会拓展到更多运营商、银行、保险、汽车和互联网企业中。”比业务拓展更重要的是,前期这些数据资产拥有者,将在很大程度上为公司构建起宋一民更看重的数据生态体系。

他说,“公司的核心竞争力,最开始肯定是技术(专利),但是现在不是了。现在是头部客户,未来是整个大的、流动起来的网络。一般的技术替代可能就是抄袭一段代码,学会一种算法就可以了。但长期看,我们的护城河在于我们由服务的头部企业所组成的数据生态体系。”这来源于大数据产业独特的“排它效应”,出于安全稳定的考虑,数据公司一旦采用了某家固定的基础技术架构,就很难轻易更换。这也是数牍科技刚一起步就要先从头部大型企业做起的原因。

对于一个创业者来说,什么是格局呢?

宋一民说,“就是要站在更高一点的位置更长期的眼光看问题,大家一起把一件事情做好,这样是对个人、企业和社会的利益才能最大化,我们的使命是‘降低互信成本,让数据协作更高效,我们希望为AI发展创造更好的数据环境,促推数据资源开放利用,助力政府间、政企间和企业间进行安全高效的数据协作,实现数据价值,进而推动数字化建设。”

尽管随着大数据产业的兴起,隐私计算这一赛道已经开始变得火热,但宋一民还是认为,数据所有权、行业标准、法律规范、市场自律等都还有很长时间需要补齐。“做任何一件事情,市场分辨公司需要时间,分辨技术和人也需要时间,行业应该长成什么样子也是需要时间的。”

宋一民觉得,这个行业一定会长出一些巨型的数据基础设施公司,他没有说出自己对这些数据基础设施公司规模和估值的预期,他说,最主要的是要把隐私计算的基础设施给做出来,跑起来,让它简单易用。要达到这种程度,可以想象的空间很大,不是一个简单的级别。

大数据时代,几乎所有的平台无时无刻不在收集用户信息,但没有人愿意在互联网世界毫无隐私地“裸泳”。

有五个不想暴露收入隐私的人,究竟该如何算出他们的平均薪酬?

每个人在心里把自己的工资拆成5个数字,自己留一个,不告诉任何人,把剩下的4个数字分别交给其他人,利用每个人获得的新的数字求和,就可以计算出准确的平均薪酬,而无需贡献自己的原始薪酬数据。

这只是一个最简单的隐私计算模型。也是在大数据时代下、在剔除掉原始的隐私数据后、市场所给出的、能够让那些待在孤岛上的数据,安全高效流动起来的商业尝试。

热点推荐
随机文章