近日,网络上曝出国内某互联网电商巨头数据被攻击者恶意爬取,近12亿条用户信息泄露。从流传的判决书看来,该事件基本上已经得到实锤。安全419在关注事件的同时也感到不解,对于如此量级的互联网电商平台来说,其本身的安全能力已然是首屈一指,在安全方面也投入巨大,但为什么仍然会出现用户数据被批量爬取的事件?
带着这样的好奇,我们找到了专注于数据流动安全治理的数据安全公司全知科技,请全知科技创始人兼CEO方兴为我们解读这背后的原因。
全知科技创始人兼CEO方兴
全知科技创始人兼CEO方兴告诉安全419,过去企业通常会把数据视为核心资产,将数据资产放在“家里”最安全的保险箱里,如果黑客想要窃取数据,就需要打破一层层的边界,攻入内部。但随着企业数字化进程的加快,企业和一些政府单位都会越来越多地通过一些在线的业务系统,提供更为便捷的线上服务。因为业务的需要,这些线上的业务系统每天会接收到用户提交的数据,当然,作为交换,它们也会主动地把大量的数据吐出去。
“此前大家一直强调黑客攻击、0Day攻击,担心外部的攻击者通过一些技术手段攻破系统,然后将数据整个偷走,然而,在真实的案例里面却并非如此”。
现实生活中,真实的数据泄露事件更多的是发生在业务层中,攻击者通常不需要高深的黑客技术,不需要复杂的0Day漏洞来层层深入企业系统内部,而是潜伏在业务系统的上下游上等待数据的流动,然后利用一些细微的安全缺陷将这些数据批量窃取。
“事实上相比较其他的黑客攻击手段而言,黑灰产冒的法律风险更低,用一些简单的爬虫软件、模拟访问、数据接口问题就可以把数据偷走,这个过程企业甚至是毫无感知的”,方兴谈到。
在大多数情况下,在业务的后端来看这些行为只是业务正常地调取数据,风险很可能就被忽视了。但事实上这部分数据正在“裸奔”,黑灰产很容易就可以通过爬虫技术,或者是利用业务系统上的一些缺陷来大批量获取。甚至,就算业务端监测到了一些数据调取的风险,可能也不会意识到已经发生了数据安全问题。
很多时候黑灰产会不断地从各个平台、渠道来获取数据,一旦这些海量的数据汇聚到了黑灰产手中,他们会把不同渠道获取的数据进行复杂的大数据计算和关联分析,进而掌握更敏感的信息。
举例来看,2020年也曾经发生过一起互联网社交平台泄露数亿用户的手机号码、ID数据的案例,攻击者实际上利用了社交软件上手机号匹配社交账号好友的功能,利用通讯录上传接口进行暴力匹配,通过通讯录、手机号反查微博好友昵称的方式,获取了大量账号、昵称、账号与手机信息的绑定关系数据。
乍一看,似乎这个数据泄露无法对用户和平台造成什么影响,但实际上在生活中手机号是一个非常敏感的隐私数据,因为它是与人直接对应的。
“尽管现在大多数互联网企业在涉及到用户ID时会进行一些保护和脱敏的处理,但黑灰产仍然会通过手机号来把用户本人在不同社交软件上面的全部信息扒下来,把大量的大家认为不重要的信息,包括头像、注册地、喜好等等统统记录下来,再通过属性的分析把用户的真实信息进行重新识别和还原,进而对用户身份画像进行越来越精准的刻画,再然后就可以做精准的广告推广,精准的电信诈骗等等任何事情。”
“我们以前会认为一个用户的ID,用户的昵称、头像是敏感数据吗?打死我们也想不到。”方兴表示,类似的案例还有很多,数据泄露实质上是在企业和用户无感知的情况下发生的,甚至这些数据泄露了以后,黑灰产会怎么利用我们都并不清楚。
“其实,这才是我们今天数据安全主要面临的现实问题。”
随着移动应用的飞速发展,API作为数据传输流转的重要通道,承担着数据交互、传输的重任,但正是这些承担数据传输重任的API接口,正在成为企业数据泄露的“源头”和“帮凶”。
Gartner曾经预测,到2022年API滥用将成为最常见的攻击方式。但全知科技已经深刻地认识到,API安全的核心并非是网络攻防,而是数据安全。方兴表示,在数字化浪潮下,企业线上业务正在快速地迭代,为了满足业务的需求,对外开放了大量的API接口,这些API接口实际上已经成为了黑灰产盗取数据的最常见渠道。
一方面,API接口会暴露一些必须要公开的数据,比如电商平台中的用户评论数据、用户头像ID、商家的库存信息等等,这些公开可查询的信息对攻击者来说也具有很大的价值,在一些关键的营销场景、诈骗场景下都会被恶意利用。
另一方面,对一些大型的互联网企业而言,他们拥有海量的业务系统,也对外开放了海量的API接口,但事实上,除了系统开发人员外,其他人很难明确了解具体存在哪些API接口。此外,开发人员也可能过几年后忘掉哪些接口还暴露在互联网上,导致这些API缺失安全维护。然而恶意攻击者却可以利用网络流量分析、逆向代码、安全漏洞等各种手段找到不设防API并实施攻击。“黑灰产时刻都在研究你,分析你,他们甚至会比企业开发人员更了解API接口的情况”,方兴谈到。
此外,企业研发人员也存在安全意识方面的不足,一些研发人员会主动保留后门调整接口,或是因为业务优先的原则打开了一些接口给上下游的合作方,导致大量的接口暴露在外,给攻击者留下了可趁之机。
因此,很大比例的数据安全问题都产生在业务应用层,发生在数据的流通环节中,但这却是企业数据安全建设过程中缺失的一环,解决数据流动中的安全问题才是真正破题的关键。
早在全知科技成立之初,就率先提出了“数据流动”、“数据风险监测”的概念,现在这些理念大多数已经成为了业界的共识,作为业内主流的数据安全厂商,全知科技始终对数据安全行业保持着敏感的洞察。在全知科技看来,未来无论是面对数据安全,数据治理,还是隐私合规保护的课题,如何刻画数据流动,都将是一个绕不过去的问题。
站在数据治理的角度需要去思考,我们到底如何把数据采集回来?经过怎样的加工和处理措施,将要把他们用到哪里去?而站在安全和隐私合规的角度也需要思考,我们核心的数据分级分类标准是什么?我最重要的、最敏感的数据是什么?他们都在哪里,从哪里流转出去了?
所以方兴提出,未来数据流动将会是一整套数据风控体系,数据流动当中我们看到数据的流动,要保护数据安全,就要去找到数据的使用价值最大化和风险可控的平衡点。
在他看来,刻画数据流的理念和国家疫情防护的方法有些不谋而合。
在疫情刚发生的时候,每个人都被隔离在家中,避免流动造成更大的安全风险,但疫情控制住后,人们有序的流动起来,这样经济发展才不会停滞,安全风险也能够通过一些防控手段进行合理控制,数据流动安全治理也是如此。
在人员流动的过程中想要保障风险可控,就需要保证流动是可控的,因此就需要在比如机场、地铁站、高铁站、办公楼入口等人员密集流动的关键节点设置管控措施,保障流动秩序。而在数据流动中,也需要去找到最关键的节点——数据的暴露面,通过技术手段对所有的暴露面进行管控,保证数据有序流动,识别恶意攻击等等,这些暴露面才是真正需要攻防技术介入的节点。
在关键的人流节点上,国家采用了人脸识别和红外测温的手段来细粒度的识别每一个个体的高风险情况,通过监测、禁止发热人员进入等方式,进而对高风险人员进行有效甄别和处置。而在数据安全治理中,在这些关键的数据暴露面上也要建立对敏感数据的识别能力,只有能够识别敏感数据,才能够在发现高风险数据被使用的进程中进行控制和管理,同时保证其他数据的正常流转。
此外我们还会发现,在这些关键的场所中,还会要求每个人打开健康码扫描登记个人信息后才允许进入,这样做的目的是留痕。这样万一发现有无症状感染者,或是新冠的密切接触者,就可以第一时间找到跟他有关联的全部个体,进行二次防控。
同理,数据流动安全治理也是如此,我们需要把所有数据的流动过程记录下来,一旦有漏过的风险没被我们识别的,那么就可以通过这样的留痕措施去分析为什么出现了这样的风险,到底谁是可能去偷数据的人,或者我哪里有弱点,跟它相关的影响的数据是哪些。然后进行二次的防控,通过这样的方式不断迭代数据安全治理的体系,让流动中的数据更安全,更高效地发挥价值。
所以方兴认为,数据安全、数据治理、隐私合规保护都被包含在这一套基于数据流动的风控体系当中,而如何去刻画好数据的流动将是未来这个行业最核心的能力。想要解决数据安全的问题,最终一定要能够回答三个问题:“如何识别数据”、“数据用到哪里去了”、“数据最后从哪里给了谁到了哪里去”。
围绕这套前沿的数据安全治理理念,全知科技打造了以“数据地图”、“数据资源流动风险监测系统”、“应用数据安全”三大类产品:
数据地图产品定位于高自动化的数据分类分级工具,通过AI技术帮助客户实现数据的识别,清晰地梳理不同数据的敏感级别、实现数据的分类分级、使用权限,主体数据归集与授权映射、以及发现数据在存储侧的合规与安全风险,帮助企业实施数据资源的安全管理。
数据资源流动风险监测系统则从数据资源视角分析数据流动的用途和去向,绘制出数据资产和业务应用之间的关系,从数据资源角度分析数据资产的变化、数据资源的流动带来的安全与合规风险。
应用数据安全产品则主要针对WEB业务应用系统,主要包括对外的API 应用数据风险监测系统和对内的Web应用数据审计溯源系统,其核心是通过自动化分析清查数据暴露面,开展自动化安全监测,降低暴露在外的数据安全风险。同时监测企业内部哪些人在看数据,他的数据权限如何,他看这些数据有没有异常的行为,排查具有敏感性的数据类型以备识别跟踪,防范可能出现的泄露风险。
方兴表示,目前全知科技的三大产品体系已经分别在数据资产自动化识别和数据暴露面管控等方面实现了应有的价值。但全知科技并不仅仅停留在覆盖单点风险场景的层面上,而是正在将这三大产品聚合、联通起来,一步步打磨刻画企业数据流动的核心能力,抢占未来数据流动安全治理的战略高地。
方兴最后谈到,数据的粒度太细了,从一条记录、一个字段、一列数字都可以展开去谈它的安全风险。而站在数据治理的角度上来看,数据治理又是一个很大的框架,业内已经提出了很多年,但是这么多年下来仍然是靠人的经验和判断来做数据的识别和监测,这样虽然也能实现短期内数据治理的目标,但还是存在很大局限性,人为识别效率低,很难覆盖全部的风险面,每个人只能做自己认知内的一部分,最后大家都很难把数据安全治理这个事情做的面面俱到。
因此在他看来,谁能够最先刻画数据流动,谁就有可能能够实现自动化的数据治理,真正地站在一个更高的维度去看待所有的跟数据相关的安全治理、隐私合规等问题,成为未来整个数据的整个流动链路上面的赢家,而全知科技已领先一步布局,稳步朝着这个方向迈进。