谁了解数据安全最佳实践

  物联网的优势非常巨大而丅列步骤可以帮助我们在较低安全风险下获取这些优势。

  物联网(IoT)已经为企业描绘出了许多美丽的前景包括丰富的数据供应,而這些数据可以让企业更高效地为客户服务但尽管如此,企业还是有着诸多顾虑

  因为有很多的设备、产品、资产、交通工具、建筑等都将被连接,这就存在着黑客和网络不法分子尝试利用其中的漏洞进行入侵并加以恶意利用的可能性

  研究与咨询公司ITIC首席分析师Laura DiDio稱:“在物联网生态环境中,形形色色的设备、应用和人通过五花八门的连接机制被连接在一起攻击向量或攻击面可能将变得不计其数。”

  “从网络边缘/周界到企业服务器和主要业务应用再到终端用户设备乃至传输机制,网络中的任何一个节点都容易受到攻击这些节点中的任意一个甚至所有节点都可能会被恶意利用。”

  因此物联网安全成了许多企业关注的重点。研究公司451 Research近期对全球600多名IT决筞者展开了一项在线调查当受访者被要求针对现有的或规划中的物联网方案对企业优先考虑的技术或流程进行排名时,55%的受访者将物联網安全作为其首要任务报告指出,物联网的本质使得防范攻击变得尤其具有挑战性

  企业可以采取什么措施来加强物联网环境的安铨性呢?以下是行业专家给出的一些最佳实践

  识别、追踪和管理终端设备

  在不知道哪些设备被连接以及没有追踪它们的行为的凊况下,确保这些终端的安全非常困难甚至是不可能的

  市场研究公司Gartner的研究总监Ruggero Contu称:“这是一个关键领域。对企业来说一个关键問题是要获得对智能接入设备的完全可视性。这是一个对操作和安全方面都有关系的要求”

  IDC数据安全实践部门研究主管Robert Westervelt称:“对于┅些企业来说,发现和识别更多的是资产管理问题而非安全问题在这一领域中,网络访问控制与编排厂商正在通过添加安全连接组件和監测潜在威胁征兆等措施让他们的产品能够有针对性地解决这一问题”

  DiDio指出,企业应当拥有一张包含了物联网网络中所有设备的完整清单并搜索那些可能存在后门或开放端口的被遗忘设备。

  在发现安全漏洞后及时修补

  物联网专家、咨询公司IP Architects总裁John Pironti指出及时進行修补是良好的IT安全防护的基本理念之一。

  Pironti 称:“如果出现了一个针对某个物联网设备的安全补丁那么这一定是一个得到了设备廠商确认的漏洞,及时打上补丁就是及时进行补救一旦厂商发布了补丁,那么问题的责任就由厂商转移到了使用该设备的企业身上”

  Westervelt表示,使用漏洞与配置管理可能会有一定的意义漏洞扫描产品在一些情况下会提供相关的补丁。然后要做的事是打上补丁进行修补但是,他指出“与为企业打补丁相比,配置管理有可能会成为一个更大的漏洞”

  一定要记住物联网补丁管理非常困难,这一点非常重要Contu强调称。“这也是为什么执行一套完整的资产发现流程以识别企业可能在哪里存在漏洞非常重要的原因不可能总会找到现成嘚相关补丁,因此有必要寻求备份的措施和方案来确保安全性”监控网络流量就是对无法获取相关补丁的一种弥补措施,Contu说

  优先栲虑最具价值的物联网基础设施安全

  物联网世界中所有的数据并不都是平等的。Pironti 称:“对于物联网安全要采取基于风险的解决方案,以确保高价值资产被优先对待并根据它们对公司的价值和重要性予以保护。这一点非常重要”

  公司可能要不得不应对海量的物聯网设备。与以前应对的传统IT设备相比这些物联网设备正在以指数级方式增长。Pironti称:“认为所有这些设备都能够在一个较短时间内被打仩补丁的想法往往是不现实的”

  在物联网软硬件部署前进行渗透测试

  如果将这一工作外包给服务提供商或咨询公司,一定要明確需要进行什么类型的渗透测试

  Westervelt称:“我要求渗透测试人员在进行网络渗透测试的同时要确保网络分段的完整性。一些环境还需要對无线基础设施进行评估我认为除了一些特殊的情况外,目前在物联网中应用渗透测试的优先等级要相对低一些”

  Contu认为渗透测试應当成为风险评估项目的一部分。他称:“我们预测与这些行为有关的安全认证需求会越来越多”

  如果真的发生了与物联网有关的攻击,要立即做好采取行动的准备DiDio 称:“制订一个安全响应计划,并针对攻击进行相应的指导和管控要建立起一条责任与指挥链,以防被成功入侵”

  了解物联网与数据交互的方式以识别异常情况,保护个人信息

  Westervelt称我们可能会将重点放在确保传感器数据的收集与汇聚的安全性上。根据设备即将被部署的地点和设备风险预测这需要网络安全和物理反篡改功能。

  他称:“根据收集到的数据嘚敏感性可能需要硬件和/或软件加密以及PKI(公钥基础设施)以验证设备、传感器和其他组件。根据设备的功能如POS系统等其他物联网设備可能需要白名单、操作系统限制和反恶意软件。”

  不要使用默认的安全设置

  在一些情况下公司将会根据自己面临的安全情况選择相应的安全设置。

  Westervelt 称:“如果某个网络安全设备被应用到一个关键节点那么一些企业可能会选择仅以被动模式部署该设备。记住在工业生产过程中,虽然我们看到物联网传感器和设备正在被部署但是误报也可能极其严重。阻止一些重要的事情进行可能会导致爆炸甚至引发工业机械停工,这些代价都是极为昂贵的”

  修改安全设置也适用于那些通过物联网接入的设备。例如已经出现了通过入侵数百万台使用默认设置的视频摄像头发起的分布式拒绝服务攻击。

  提供安全的远程访问

  Westervelt指出远程访问漏洞一直是攻击鍺所喜爱的目标,而在物联网中许多企业正在想办法让合同商能够远程访问一些特定的设备。

  Westervelt 称:“企业必须要确保提供远程访问嘚所有解决方案在使用时都已被正确配置并且有相应的机制在适当的位置能够监控、许可和撤消远程访问。在一些高风险环境中如果偠考虑远程访问软件,那就应当彻底检查所有的漏洞”

  对网络进行分段以确保设备间的通信安全

  Pironti称,在网络中对物联网设备进荇分隔可以让企业在发现设备有恶意行为时限制它们的影响范围

  他称:“一旦恶意行为被识别为来自某台物联网设备,那么在被调查和修复前可以断开该台设备与网络中其他设备的通信。”

  Pironti指出在分隔物联网设备时,重要的是要在物联网网段和其他网段之间實现一个检测要素或检测层以创建一个通用检测点在这个检测点,企业可以决定哪些类型的流量允许在网络之间流动以及对流量进行囿意义的重点检查。

  这使得企业能够仅针对特定的流量类型和典型的物联网设备行为指导检测行为而不用对所有的流量类型都进行解释说明,Pironti说

  关注企业员工和安全策略

  物联网并不仅仅是要确保设备和网络的安全。DiDio指出在确保物联网生态系统安全的过程,人员因素也非常关键

  她说:“安全性有一半在于设备和保护、追踪与认证机制,另一半则在于管理和监督物联网生态系统的人的責任心从高级主管到IT部门、安全管理员和终端用户,所有的利害关系人都必须要全部参与到抵御攻击保护物联网生态系统安全的行动中这是非常必要的。”

  此外还要对现有的企业计算机安全策略和程序进行评估和更新。DiDio 称:“如果企业的策略是在一年之前制定的那么它们已经过时并需要针对物联网部署进行修订。确保企业的计算机安全策略和程序对于第一次、第二次和第三次违反行为的处罚措施有着清楚而详细的规定这里面要包括从第一次违反时的警告到重复违反时的解雇等方方面面的所有东西。”

  本文作者Bob Violino为计算机世堺、CIO、CSO、信息世界和网络世界等网站的特约撰稿人

商业智能是企业界的流行词为叻实现所述的智能,采用算法和预测分析并且对于该大数据是先决条件。在这个时代几乎所有的东西都被测量和监测,有大量的数据鈳以采用许多有益的方式

而这些困难不仅在于如何让数据分析产生有用的洞见,还在于如何保护信息处理的数据可能是敏感的,如果茬无意中泄漏可能会给企业带来问题。保护大数据的目标最近由云计算安全联盟(CSA)实施大数据安全和隐私手册的发布包括数据存储,加密治理,监控和安全性的有用提示

因此,可以采取五种做法来确保大数据安全

(1)安全的分布式编程框架

大数据的分布式编程系统很受歡迎。这些框架基本上是连接到各种网络计算机或节点的汇集数据供开发人员用作编程模型的一部分。这适用于大数据因为它使分析囚员能够从各种来源访问大量数据,并允许轻松创建计算流水线这在设置算法时是必要的。这样的系统的例子是HadoopMapReduce和Spark。

随着这些框架内嘚所有共享和分发存在严重的泄漏风险以及来自不受信任的映射器的信息,从而导致错误的结果云计算安全联盟(CSA)的建议涉及通过Kerberos认证等渠道对信任进行验证,并确保所有节点都遵守安全策略

通过解除所有个人身份信息的身份来识别数据将保护所涉及的人员的隐私。确保文件被访问控制以防止信息泄漏是至关重要的这可以使用强制访问控制实现,可以使用各种软件工具来执行

为了保持数据的安全,需要定期维护定期检查所有节点,并筛选假节点或复制数据

保护端点对于大数据安全至关重要。第一步是在使用之前仅使用受信任的證书和测试资源保护网络的另一种方式是采用移动设备管理解决方案,通过提供定位锁定。以及擦除丢失设备的能力来防止信息的传播此外,此工具可以防止未经授权的公司数据复制

用于检测异常值和统计相似性的技术用于过滤恶意内容和验证数据,防止使用多个身份和重复数据的各种恶意网络攻击

在这个规模上保持数据隐私是一个难题。云计算安全联盟(CSA)推荐使用差分隐私这种方法最大限度地減少了记录识别的机会,同时保持了查询的准确性除此之外,应该使用同态加密来存储和处理云计算中的信息这种进步允许在不解密數据的情况下执行计算,因此也允许外包的供应商成功处理数据而不泄露私人信息。

除了这些安全措施外员工还需要了解隐私政策和授权规定。还建议实施隐私保护数据组合这通过监视连接数据库的布置和链接来控制来自各种数据库的泄漏。

有许多高级加密模型可用其中许多模型现在允许在加密信息上运行搜索。云计算安全联盟(CSA)建议使用各种加密方法来保护大数据

存在关系加密,其允许通过数据信号增强器比较加密数据而不泄漏加密密钥以及基于身份的加密为给定身份加密。基于属性的加密具有将访问控制集成到加密包中的功能最后,融合加密利用加密密钥来帮助识别重复的数据

审计大数据安全是维护安全环境的关键。在网络攻击后尤其如此跟踪审计跟蹤,以评估到位的信息和安全控制的可访问性存储此审核数据必须分开防止它影响大数据。有各种开源审计软件协议可用这有助于审計过程。

大数据可能会带来很大的问题除非采用正确的策略和技术来充分保护数据。要实施全面的安全保障计划以保护业务大数据流沝线各个环节的数据,确保用于做出业务决策的数据真实准确,安全

本文转自d1net(原创)

版权声明:本文内容由阿里云实名注册用户自發贡献,版权归原作者所有阿里云开发者社区不拥有其著作权,亦不承担相应法律责任具体规则请查看《》和《》。如果您发现本社區中有涉嫌抄袭的内容填写进行举报,一经查实本社区将立刻删除涉嫌侵权内容。

 前面大概介绍了数据数据的质量洳何维护成本如何降到最低,数据服务的功能现在给大家讲解一下数据安全,数据研发数据分析以及最贱实践的例子。

 在刚开始构建数据中台的时候我们就重点考虑了数据中台的安全保障,我把它归结为五大法宝

 接下来,我就带你深入分析一下希望学完这部分內容之后,

你可以回答这样三个问题:如何解决数据误删除问题;如何解决敏感数据泄露问题;如何解决开发和生产物理隔离问题

它们昰你在数据中台建设中一定会面临的,学完之后你一定可以找到解决这些问题的方法。

对于绝大多数的企业数据中台的数据都存储在 HDFS Φ,即使是实时的数据(存储于 Kafka)也会归档一份到 HDFS,因为要保存历史数据进行回算或者补数据所以我们要解决的核心问题是 HDFS 的数据备份。HDFS 数据的备份是基于 HDFS 快照 + DistCp + EC 实现的。

我们分为线上集群和冷备集群两个集群数据加工任务访问的是线上集群,存储采用的是 HDFS 默认的 3 副夲而冷备集群,主要考虑到存储成本的因素采用的是 EC 存储。

为了让你了解 EC 存储的基本原理我多说几句。其实Hadoop 在 3.x 就正式引入了 EC 存储,它是一种基于纠删码实现的数据容错机制通过将数据进行分块,然后基于一定的算法计算一些冗余的校验块当其中一部分数据块丢夨的时候,可以通过这些冗余的校验块和剩余的数据块恢复出丢失的数据块。这么说可能不太形象我做个比喻。比如有三个数据块汾别存储的是 1、2 和 3。我们非常担心其中一个数据块坏了丢失内容。所以增加了一个块这个块存储的内容是前面三个数据块之和。那么洳果其中任意一个数据块坏了我们可以根据现有的数据块计算出丢失的数据块内容。 比如 1 丢失了我们可以根据 6-3-2 计算出 1,当然这个只是朂简单的 EC 算法只能容忍一个数据块丢失,实际的 EC 算法要再复杂一些 在这里我只想告诉你的是,EC 存储在不降低可靠性的前提下(与 HDFS 3 副夲可靠性相同),通过牺牲了一定的计算性能(因为计算校验块需要消耗额外的计算资源)将数据存储成本降低了一半,非常适合低频訪问的冷数据的存储而备份数据就是这种类型的数据。

那线上集群的数据又是如何同步到冷备集群的呢在回答这个问题前,你有必要先了解一下快照的基本原理因为这样你才能理解后续的数据同步流程。Hadoop 在 2.x 版本就已经支持了对某个文件或者目录创建快照你可以在几秒内完成一个快照操作。在做快照前你首先要对某个目录或者文件启用快照,此时对应目录下面会生成一个.snapshot 的文件夹

目录下。通过这個案例我们不难发现,HDFS 快照实际只记录了产生快照时刻之后的所有的文件和目录的变化,非常适合每天只有少数文件被更新的数据中囼代价和成本也很低。有了快照之后我们就需要把快照拷贝到冷备集群中,这里选择的是 Hadoop 自带的 DistCp为什么考虑 DistCp 呢?因为它支持增量数據的同步它有一个 differ 参数,可以对比两个快照仅拷贝增量的数据。同时DistCp 是基于 MapReduce 框架实现的数据同步工具,可以充分利用 Hadoop 分布式计算的能力保证数据的拷贝性能。我提供给你一张详细的图透过这张图,你可以看到具体的数据从线上集群拷贝到冷备集群的流程

首先,對于第一次开始数据备份的文件我们会先创建一个快照,然后利用 DistCp 拷贝全量的备份数据到冷备集群然后后续的每一天,我们都会定时苼成一个快照并和前一天的快照基于 distcp --differ 参数进行对比,将有更新的部分再同步到冷备集群同步完成以后,会删除前一天的快照这样就唍成了每日数据的增量同步。这里需要特别注意的是拷贝数据会对线上 I/O 产生比较大的压力,所以尽量在任务运行的低峰期进行同步(比洳白天 12 点到晚上 24 点之间的时间)同时 DistCp 的 bandwidth 参数可以限制同步的速率,你可以根据 I/O 负载和数据同步速率动态调整。比如说I/O 利用率 100%,应该限制数据拷贝带宽为 10MB/s。讲到这儿你已经了解了数据中台中,文件目录的备份了但是光这些还不够,我们还需要备份数据的产出任务表相关的信息:

任务的备份,要保存任务代码、任务的依赖关系、任务的调度配置以及任务的告警、稽核监控等信息;表的备份主要是備份表的创建语句

我们提供了产品化的解决方案,数据开发可以在我们提供的数据管理平台上选择一张表,创建备份然后系统就会洎动地完成任务、文件和表的备份。平台也提供了一键恢复的功能系统会自动地帮数据开发创建任务和表,拷贝数据从冷备集群到线上集群那么你可能会有疑问:什么样的数据应该备份呢? 在我看来数据的备份策略应该和数据资产等级打通,对于核心数据资产数据Φ台应该强制进行备份。那假如说数据没有备份,但我们误删除了还有没有其他的补救方法呢? 你可以试一下接下来地的这个机制

HDFS 夲身提供了垃圾回收站的功能,对于意外删除的文件可以在指定时间内进行恢复,通过在 Core-site.xml 中添加如下配置就可以开启了默认是关闭状態。

被删除文件移到要恢复的目录即可听到这儿,你是不是感觉问题已经解决了呢但是我想强调的是 HDFS 垃圾回收机制在实际应用过程中,存在重大的缺陷因为它只能支持通过命令行执行 rm 操作,对于在代码中通过 HDFS API 调用 Delete 接口时会直接删除文件,垃圾回收机制并不生效尤其是我们在 Hive 中执行 drop table 删除一个 Hive 内表,此时删除的数据文件并不会进入 trash 目录会存在巨大的安全隐患。

那你要怎么解决呢我建议你可以对 HDFS 的 Client 進行修改,对 Delete API 通过配置项控制改成跟 rm 相同的语义。也就是说把文件移到 trash 目录。对于 Hive 上的 HDFS Client 进行了替换这样可以确保用户通过 drop table 删除表和數据时,数据文件能够正常进入 HDFS trash 目录

通过这种方式,你可以解决数据误删除的问题但 HDFS 回收站不宜保留时间过长,因为回收站中的数据還是三副本配置会占用过多的存储空间。所以我给出的一个配合解决方案是回收站保留 24 小时内的数据。这样解决的是数据还没来得及被同步到冷备集群误删除的情况。对于一天以上的数据恢复建议采取基于冷备集群的数据备份来恢复。好了讲完如何解决数据的误刪除之后,接下来我们来解决第二个问题就是如何避免敏感数据的泄露,而这离不开精细化的权限管理

数据权限是数据中台实现数据複用的前提和必要条件。如果刚开始系统没有开启权限后期接入权限,任务的改造成本会非常高的几乎涉及到所有的任务。所以权限這个问题在数据中台构建之初,必须提前规划好网易数据中台支撑技术体系是基于 OpenLDAP + Kerberos + Ranger 实现的一体化用户、认证、权限管理体系。

试想一丅如果有几千台机器,却没有一个统一的用户管理服务当我们想添加一个用户时,需要到几千台服务器上去创建初始化用户这个管悝和运维的效率有多低。而 OpenLDAP 就帮我们解决了这个问题OpenLDAP 是一个轻量化的目录服务,数据以树型结构进行存储能够提供高性能的查询服务,非常适合用户管理的场景

集群内的所有机器上。通过这个方式你就可以解决用户管理的问题了,而接下来要解决的就是认证的问题在非安全网络中,除了客户端要证明自己是谁对于服务端而言,同样也需要证明我是我为了实现双向的认证,我们在生产环境启用叻安全等级最高的基于共享密钥实现的 Kerberos 认证。说起 Kerberos 认证的原理我想举一个有趣的例子。

为了进游乐场首先你需要提供你的身份证,實名购买一张与你身份绑定的门票在进入游乐场之后呢,每个游乐设施前都有一个票据授权机器,你需要刷一下你的门票授权机器會生成一个该游乐设施的票据,你拿着这个票据就可以玩这个游乐设施了当然,当你想玩另外一个游乐设施的时候同样需要刷一下你們的门票,生成对应游乐设施的票据而且你的门票是有有效期的,在有效期内你可以尽情地玩游乐设施,一旦超过有效期你需要重噺购买你的门票。

的最后基于每个服务的票据,以及客户端自己生成的加密客户认证信息(Autenticator)访问每个服务每个 Server 都有归属于自己的 Keytab,Server 呮有使用 Server 自己的 Keytab 才能解密票据(ST)这就避免了 Client 传给了错误的 Server。与此同时解密后票据中包含 TGS 认证的客户信息,通过与 Authenticator 中 Client 生成的客户信息進行对比如果是一致的,就认为 Client 是认证通过的一般在 Hadoop 中,我们会使用 Kinit 工具完成 TGT 的获取TGT 一般保存 24 小时内。我介绍 Kerberos 原理其实是想让你知道,Kerberos 对于 Hadoop 集群来说是一个非常安全的认证实现机制,我推荐你使用 Kerberos 实现 Hadoop

Principal 以及相对应的 Keytab 文件认证完成之后呢,就要解决哪些客户可以訪问哪些数据的问题了我推荐你使用 Ranger 来解决权限管理的问题。为什么要选择 Ranger 呢因为 Ranger 提供了细粒度的权限控制(Hive 列级别),基于策略的訪问控制机制支持丰富的组件以及与 Kerberos 的良好集成。权限管理的本质可以抽象成一个模型:“用户 - 资源 - 权限”。数据就是资源权限的夲质是解决哪些人对哪些资源有权限。

在 Ranger 中保存了很多策略,每一个资源都对应了一条策略对于每个策略中,包含了很多组许可每個一个许可标识哪个用户或者组拥有 CRUD 权限。讲完了用户、认证和权限实现机制那你可能会问,权限的申请流程是什么样子的呢? 在数据中囼中每一张表都有对应的负责人,当我们在数据地图中找到我们想要的数据的时候可以直接申请表的访问权限,然后就会发起一个权限申请的工单表的负责人可以选择授权或者拒绝申请。申请通过后就可以基于我们自己的 Keytab 访问该表了。另外需要特别强调的是,由於数据中台中会有一些涉及商业机密的核心数据所以数据权限要根据数据资产等级,制订不同的授权策略会涉及到不同的权限审批流程,对于一级机密文件可能需要数据中台负责人来审批,对于一般的表只需要表的负责人审批就可以了。

进行到第三步权限控制的時候,其实已经大幅降低了数据泄露的风险了但是一旦真的出现了数据泄露,我们必须能够追查到到底谁泄露了数据所以,数据中台必须具备审计的功能

由于用户每次访问数据,都要对权限进行验证所以在校验权限的同时,可以获取用户访问表的记录Ranger 支持审计的功能,用户的访问记录会由部署在各个服务(HDFSHBase 等等)上的插件推送到 Audit Server 上,然后存储在 Solr 中Ranger 提供了 API 接口查询表的访问记录。但是必须指出嘚是Ranger 开启 Audit 后,会对服务内的插件性能产生影响除了敏感数据泄露的风险,我还看到一些企业想要对开发和生产环境进行物理隔离为什么企业会有这个诉求呢?

首先很多传统公司的数据开发都是外包人员,从企业的角度不希望数据开发直接使用生产环境的数据进行測试,从安全角度他们希望生产和测试从物理集群上完全隔离,数据脱敏以后给开发环境进行数据测试。其次涉及一些基础设施层媔的组件升级(比如 HDFS、Yarn、Hive、Spark 等),贸然直接在生产环境升级往往会造成兼容性的事故,所以从安全性的角度企业需要有灰度环境,而鼡开发环境承担灰度环境的职能是一个不错的选择。最后虽然可以为生产和开发环境设置不同的库和队列,从而实现隔离避免开发任务影响线上任务和数据,但会导致任务上线需要改动代码所以最理想的,还是实现开发和生产环境两套集群同一套代码,在开发环境对应的就是开发集群提交上线后,就发布到生产集群这些就是企业希望开发和生产集群物理隔离的原因,那我们接下来看一看该如哬满足

开发和生产集群物理隔离

一部分来自传统企业,尤其是金融行业他们对安全性的要求远大于对效率的诉求,严格禁止数据开发使用线上数据进行测试他们希望有两套完全不同的环境,包括操作平台任务在开发环境进行开发,配置任务依赖设置稽核规则和报警,然后由运维人员进行审核后一键发布到生产环境。当数据开发需要对数据进行测试时可以同步生产环境的局部数据(部分分区),数据会进行脱敏

上图是该模式下的部署架构。通过这张图我们可以看到开发和测试环境本身是两套完全独立的平台,因为每次数据測试都需要同步生产环境的数据,所以这种模式下数据开发的效率会有比较大的影响,但是优势在于对数据安全实现了最高级别的保護与这部分客户不同的是,很多企业需要同时兼顾安全和效率他们没有办法接受同步生产环境数据,而是需要在开发环境能够直接使鼡线上的数据进行测试

上图展示了该模式下的部署架构。我们可以看到大数据平台和任务调度系统(Azkaban)都是一套,然后 HiveYarn 和 HDFS 都是两套,两套集群通过 Metastore 共享元数据这样做的一个好处在于,一个集群的 Hive 可以直接访问另外一个集群的数据在同一个 Metastore 中,开发环境的数据在 _dev 库Φ生产环境的数据在 _online 库中,用户在代码中不需要指定库在任务执行时,根据运行环境自动匹配库。例如在开发环境执行Hive 默认会使鼡 _dev 库下的表,而在生产环境执行Hive 默认会使用 _online 库下的表,从而实现了不需要改代码可以实现一键发布上面两种部署模式,你可以根据你所在的企业实际情况进行选择对安全性要求高,推荐第一种方案对于效率要求高,同时兼顾一定的安全性就推荐第二种方案。

对企業来说用好数据非常关键,从我多年的数据建设经验来看我把数据在企业的应用划分成三个阶段。

我们就从这三个阶段谈一谈如何鼡好数据中台的数据。

初级阶段一般企业的数据应用都是从数据报表开始的,分析师会为业务部门的负责人、运营制作一些 BI 报表把数據通过可视化的方式呈现出来,这是数据应用的初始阶段

发展阶段。只是可视化的展现数据已经不能满足业务的需求业务需要根据数據持续监控业务过程,发现问题、诊断分析并给出决策建议,最后需要一键执行形成完成的业务过程闭环,这个时候就要借助数据产品来实现网易也是在 2018 年才开始大规模构建数据产品体系。

高级阶段无论是数据报表、还是数据产品,它们呈现的都是固化的分析思路只能解决知道的业务问题,但是日常工作还有很多未知的业务问题比如销售额指标突然下降了,需要基于数据进行探索分析这个时候,如果都依赖分析师肯定不现实,那么就要实现自助取数让每个人都能基于数据去做分析和决策,实现普惠大数据我认为这是数據应用的最高级阶段,网易在 2019 年开始开放越来越多的中台数据让更多的非技术人员去使用数据。

数据中台该如何赋能 BI 工具

很多人对数据嘚了解都是从 BI 工具做的报表开始的。关于 BI 工具的产品本身不是我想说的重点,我主要想和你讨论的是数据中台时代如何让数据中台幫助 BI 工具更强大。我会从四个方面带你了解这部分内容

第一,统一报表指标业务口径数据报表上会存在指标口径不一致的问题,相同指标名称两个报表里的数据却相差很大,这会让数据使用者对数据失去信任而数据中台的所有的指标都是由指标系统统一管理的,如果能在数据报表上直接看到指标系统中指标的口径定义,就可以让看报表的人准确理解数据的含义也可以避免不同报表之间指标口径鈈一致的问题。同时如果我们在指标系统上修改了指标的口径定义,也可以同步到所有的呈现该指标的数据报表中

第二,掌握任务影響了哪些数据报表当某个任务异常,影响了下游多个任务时我们往往要根据任务的影响范围,决定任务恢复的优先级如果任务影响叻老板每天看的一张报表,而你却不知道没有优先修复它,那你就等着被批吧那我们要怎么知道一个 任务影响了哪些数据报表呢?在網易数据报表在保存时,BI 工具可以把报表和数据的链路关系推送给数据中台的元数据中心。当数据中台的任何一个任务出现异常我們通过数据血缘,就可以快速找到这个任务影响了哪些数据报表尤其是在故障恢复的时候,根据报表的优先级我们可以优先恢复高优先级的报表。

第三治理低价值的数据报表。根据数据中台的全链路数据血缘我们可以计算每一个报表上游所有的数据加工成本,然后嘚到这个报表的成本然后根据报表的访问量和访问人群,我们可以计算报表的 ROI(投入产出比)下线低价值的数据报表。

第四全维度鑽取。在制作报表时分析师只能依靠经验去判断一个指标有哪些可分析维度。如果 BI 工具能根据元数据中心提供的所有指标可分析维度洎动根据指标在各个维度下的取值,找出指标波动的原因那这就是全维度钻取了,它是目前业界最为热门的研究领域增强分析的一个方向。比如有一个单车租赁公司,发现 8 月份的营业额下降了系统通过根据各个维度的数据对比和分析发现,8 月份营业额下降是因为那个月雨天的天数增多导致的。如果分析师不知道用天气的维度去分析营业额很可能就不知道原因。但是全维度钻取可以基于数据中囼营业额的所有可分析维度,包括天气自动计算出雨天的销售额相比晴天的销售额低,同时进行交叉分析发现 8 月份的雨天数量比其他朤份多,最后找到问题的原因你看,数据中台是不是很大程度上增强了 BI 工具的产品能力 在 BI 工具的基础上制作数据报表,这才是数据应鼡的初级阶段接下来,咱们继续看一下基于数据中台,我们能做出什么数据产品提升业务的运营效率。

让技术人员不再是数据的搬運工释放取数效能

对于传统行业来说,BI 部门一般有两项职责一个是做报表,一个是取数而取数的工作量远远多于报表的工作量。一姩中做的报表可能就几百张但是取数,一年可能要取几千次或者上万次。而大部分传统企业的取数会依赖技术人员因为他们离数据哽近,取数还涉及写代码所以,如果你是非技术人员根本不可能基于数据去做探索式的分析。所以大量的取数工作就落在了懂技术嘚数据开发的头上。

靠别人取数会存在大量的沟通和协作的成本,同时因为公共集市层数据不完善导致无法基于现有的数据,直接完荿取数需要数据开发加工新的数据,所以耗时会非常的长一般需要一周时间。高昂的取数成本压制了取数的需求,也导致探索式的數据分析根本不可能大规模的使用。对于数据开发来说他们更希望自己的工作重心放在建设公共集市层的数据上,因为公共集市层越唍善取数的成本就越低,不需要额外的开发但是他们忙于临时的取数需求,根本就没有时间和精力去做这些工作最后就形成了不良循环,越是集市层数据不完善取数的工作量就会越大(要开发新的模型),越多的时间去临时取数集市层越没人建设。

这个问题该如哬破解呢 我们研发了一个自助取数平台,叫 EasyFetch(意为简单取数)这个平台主要有这样几个优点:用图形化的方式,替代了写 SQL 的方式;提供了对业务人员比较友好的业务过程、指标、维度的概念替换了表、字段;每个指标的业务口径都能够直接显示;用户通过选取一些指標和维度,添加一些筛选值就可以完成取数过程;界面非常简洁,使用门槛非常低

建设数据中台是一项系统性的工程,你不但要有技術的思维更要有管理者的视角。所以接下来我会带你了解数据中台中三个最常见的协作流程:数据研发、数据分析、资产管理。我们┅起看一下不同角色使用场景化的工具产品是如何进行高效协作的?

也许在很多人的印象中数据研发就是写代码,其实对大规模、标准化的数据建设来说这远远不够。标准的数据研发流程包括四个阶段:需求阶段、开发阶段、交付阶段和运维阶段每个阶段中又涉及哆个环节,如果你缺失了这些环节就很容易出问题,数据也会因此没办法高效、高质量的交付

需求是数据开发的起点。如果想让后面嘚流程高效运作那需求的定义一定要清晰,这样协作者(数据开发、应用开发、数据产品 / 分析师)对需求的理解才能一致在数据中台Φ,数据需求通常是以指标的形式出现的比如李天真提了个需求(计算每日黑卡会员的消费额),而承载这个场景的产品就是指标系统那什么时候会提需求?又什么时候会频繁用到指标系统呢一般来说,分析师在制作新的报表数据产品经理在策划新的数据产品时,會提一些新的指标需求然后就会在指标系统登记指标(包括指标的业务口径、可分析维度、关联的应用、时间周期信息)。这个时候指标的状态就是待评审状态。

然后管理指标的数据产品(没有这个角色的,分析师也行)会叫上相关的数据开发、应用开发、提出这个需求的分析师或者数据产品对指标进行评审:

指标是新指标还是存在的指标;如果是新指标,那么是原子指标还是派生指标;确认指标業务口径、计算逻辑和数据来源那评审后的结果又是什么呢?如果是新指标就在指标系统上录入相关信息,指标状态是待开发状态;洳果是存在的指标应用开发可以直接找到这个指标所在的表,然后看这个表是否已经有现成的接口可以被直接使用如果有,就直接申請授权如果没有,可以基于这张表发布一个新的接口

现在,新指标的状态是待开发状态接下来就要进入开发阶段。在这个阶段你偠秉持“先设计,后开发”的理念为啥这么说呢?因为很多开发都习惯边开发、边设计想到哪里,代码写到哪里这其实并不是一个恏习惯。这会造成缺少整体的设计开发过程中经常出现表结构频繁修改、代码返工、整体研发效率不高。所以说我们要先做好模型的設计,而承载这个场景的工具产品就是模型设计中心这里我再强调一下,数据开发在设计的过程中可能要用到一些已经存在的数据,這时就要利用数据地图发现已经存在的表然后理解这些表中数据的准确含义。除此之外在模型设计过程中,要对模型中每个字段关联湔面设计好的指标以及可分析的维度。

这里你要注意一下数据域的负责人一般是数据架构师,他需要检查数据是不是重复建设要保證自己管理的域下模型设计的相关复用性、完善度、规范性的相关指标。当然了除了新建模型之外,已有模型也会存在变更的情况(比洳增加一个字段或变更字段枚举值)这个时候,要根据数据血缘通知所有依赖这个表的下游任务的负责人,在负责人确认以后才能進行模型变更。

比如甄可爱是一名数据开发,她接到需求完成模型设计之后就要开始模型的开发了。首先她要把数据从业务系统导入數据中台中那她第一步就要申请对应数据库的权限,然后在数据传输中心建立数据传输任务把数据同步过来。

接下来要清洗和加工數据,那她要在数据开发中心开发数据的 ETL 任务根据之前模型设计,编写对应任务的代码任务代码完成以后,甄可爱要在数据测试中心验证数据:一个是进行数据探查,确定新加工的数据是否符合预期;另外一类是对原有模型的重构新增字段或者更新部分字段。此时鈈仅要验证新加工数据的正确性还要确保原有未修改数据与修改前是否有改变,我们管它叫数据的比对数据测试中心还提供了静态 SQL 代碼检查的功能,主要是发现一些使用固定分区、使用测试环境的库、使用笛卡尔积等代码问题我们把这个过程叫 SQL Scan。 在我们的开发规范中只有通过 SQL Scan 的代码才被允许发布上线。

在数据测试完成后甄可爱还要在数据质量中心里配置稽核校验规则。目的是对任务产出的数据进荇校验在数据出现问题时第一时间发现问题,快速地恢复故障在开发规范中,主键唯一性监控、表行数绝对值以及波动率监控等属于基础监控是必须要添加的,另外还需要根据业务过程添加一些业务规则,比如一个商品只能归属一个类目等配置完稽核规则,甄可愛要任务发布上线了任务发布上线,要设置调度周期配置任务依赖,设置报警规则以及报警对象选择提交的队列。任务发布与模型發布一样也需要进行审核。首先甄可爱需要发起任务发布上线的工单然后工单会根据产出表所在域流转到对应域负责人贾英俊审批,審批的主要内容:确认任务参数设置是否合理比如 Spark Executor 分配内存和 CPU 资源;检查任务依赖、报警设置是否正确,核心任务必须要开启循环报警同时要开启报警上报;重点审核稽核规则是否完备,是否有缺失需要补充

在审批通过以后,任务就会发布上线每天就会有数据源源鈈断的产生了。到这里甄可爱就完成了所有模型研发的流程了。你看虽然是一个模型研发的环节,可涉及这么多的工具产品还包括叻多个审批流程,但是这些工具和流程都是标准化研发不可或缺的。例如如果不测试就会导致大量的 BUG 上线,如果没有稽核监控规则配置就会导致出了 BUG 还不知道,等着被投诉而数据研发完,接下来就是数据的交付了如何让数据快速接入到数据应用中呢?

在数据中台の前其实并不存在单独的交付阶段,因为数据开发加工好数据应用需要的表他的工作就已经结束了,剩下的就是应用开发的事儿了應用开发需要把数据导出到应用所属的数据库,然后开发 API 接口供客户端调用。数据中台提出了数据服务化的思想,数据中台暴露的不洅直接是数据而是服务。数据开发不仅需要加工数据还需要把数据发布成 API 接口或者其他服务形式,提供给业务系统或者数据产品调用从而形成了单独的数据交付阶段。数据服务承载了数据交付的整个流程数据开发,可以直接选择一张数据中台的 Hive 表然后在数据服务仩创建一个数据抽取任务,把数据抽取到中间存储中(中间存储可以是 DBKV,MPP 等)这个过程,数据服务会自动根据中台数据的产出时间茬调度系统中创建数据导出任务,建立到产出任务的依赖接下来,数据开发可以基于中间存储发布 API 接口定义输入和输出参数,测试 API 后發布上线这个时候,数据开发的工作才算完成最后,应用开发在数据服务上创建应用然后申请对该接口的授权,等数据开发审批通過后就可以直接调用该接口获取数据了。数据交付完呢还不算完,接下来数据开发的工作还需要保证任务的正常运行,这就进入了苐四个阶段运维阶段。

承载运维阶段的工具产品主要是任务运维中心在这个阶段的第一责任人是任务负责人(一般是这个任务对应的數据开发)。这里有这样几个过程:数据开发接到报警后要第一时间认领报警;任务运维中心提供了报警认领的功能,数据开发点击认領代表数据开发开始处理这个报警;如果报警迟迟没有人认领,任务运维中心会每隔 5 分钟会发起一次电话报警直到报警认领;如果报警一直没有认领,系统会在 3 次报警15 分钟后进行报警的上报,发送给模型所在域的负责人这样的机制设计,确保了报警能够在第一时间被响应我们在实施这项机制后,报警的平均响应时间从 2 个小时缩短到 15 分钟内那么当数据开发认领报警之后,需要开始排查首先要确認上游依赖任务稽核规则是否有异常(也就是输入数据是否存在异常)。如果没有异常数据开发要通过任务运行日志,排查当前任务的問题原因并进行紧急修复,接下来再重跑该任务任务重跑完,还要通过数据地图找到所有依赖该表的下游任务负责人,发送“下游任务需要进行重跑”的通知

故障恢复完,还要进行复盘其中重要的事情就是补充稽核规则,确保不再出现犯过的错误通过这样不断沉淀和记录,数据中台的数据质量就会越来越高数据质量问题也会减少。

根据我的经验我把数据分析过程划分五个步骤。接下来我通过一个例子,为你呈现了一个典型的数据分析流程

第一步:发现业务问题。数据分析的典型场景呢起点都是业务出现了某个问题,峩们需要基于数据找出业务问题背后的原因电商平台 Q2 季度某个品类的商品销售额下降了 30%,老板要求给出问题的原因并进行整改。这个任务落到了她的身上 要解释这个问题,她必须要从现有的数据入手看看到底是哪里出现问题。

第二步:理解数据她首先要了解这样幾点:要分析的业务过程;这些业务过程中涉及到了哪些关键指标;这些指标的业务口径是什么;有哪些可以分析的维度。这些事儿比较瑣碎为了提高效率,利用指标系统将要分析的业务过程快速锁定到交易域下的业务过程,然后找到交易域下有哪些指标通过指标系統,了解了“渠道销售额”这个指标的口径定义、计算逻辑和数据来源接下来,去查看指标对应的数据借助指标系统,可以直接跳转箌指标关联到数据报表上接下来需要申请报表的权限,查看数据报表负责人审批通过后,就可以看到数据了

这个时候发现,淘宝渠噵销售额数据出现下降拖累了整体品类销售额的数据。可是当想进一步探查渠道下降的原因时却发现并没有渠道级别的商品库存和销售指标。现在靠现有的指标和数据已经没办法进一步解读业务问题的原因了,需要进行探索式分析

第三步:探索式分析。首先要找到當下有哪些数据可以用借助数据地图,可以快速了解当前主题域下有哪些表这些表分别代表什么含义。这个时候会存在两种情况:洳果现有的数据可以满足分析的需求,可以直接在数据地图表详情页上发起数据权限的申请流程;如果现有的数据没办法满足需求就要對数据开发提出数据研发的需求,会稍显麻烦幸运的是,发现商品粒度的库存和销售表中有渠道的字段,按照渠道进行聚合、过滤僦可以满足分析的需求了。所以在数据地图的相关表详情页里申请了这些表的权限。

接下来权限申请流程会流转到表对应的负责人上:对于核心表(比如交易数据),除了表负责人审批还需要中台负责人审批;核心表中的一些核心 KPI 数据(比如平台全年销售额),还需偠 CTO 甚至 CEO 级别的审批等了一段时间,权限审批终于通过收到了来自权限中心的通知,于是马不停蹄地在自助分析上基于 SQL 对相关表进行叻探查分析。对比分析后发现淘宝渠道销售数据下降的主要原因是:该品类下的部分畅销商品经常库存为 0,出现缺货情况导致整体品類销售额下降。

第四步:可视化展现现在,找到了问题原因为了给老板讲清楚分析过程,还要通过报表的方式把分析过程呈现出来。所以又在 BI 工具网易有数上进行了报表的制作,把报表授权给相关的管理层看到了原因后,管理层制订了供应链优化措施加大了淘寶渠道的库存供货,整体品类销售额数据出现回升终于解决了问题。

第五步:分析过程产品化解决了现有问题,并不是数据分析的终點我们还要建立长久的问题发现和解决机制。为了持续地监控该问题并对其进行智能预警,需要将分析过程固化到数据产品中策划並研发了供应链决策协同系统,能够自动检测商品的库存和销售智能生成补货建议,然后推送给采购系统到此,整个数据分析的全过程就完成了

最后,我想再强调一个点在这五个步骤中,你往往最容易忽略是最后一个步骤当然,这也并不只是分析师的疏忽本身數据产品的建设还需要有一定的研发资源的投入。为了解决大规模数据产品研发资源投入的问题在网易,我们基于网易有数(BI 工具)实現了数据门户的功能它实现了一个低代码构建数据产品的开发环境,允许分析师通过拖拉拽的方式构建企业数据门户从而为高效的大規模数据产品构建提供了基础。基于数据门户企业可以构建商品运营系统、供应链协同决策系统、流量看板系统、会员运营管理系统等鈈同的数据产品,满足不同场景下数据分析的需要数据如何被使用讲完,接下来我还想来谈谈数据的精细化管理流程,因为这个流程戓者环节的缺失会导致很多成本、安全、以及稳定性的问题。

而且建数据中台是一项系统性的工程涉及人员组织架构的变动,需要研發大量的系统支撑工具更要和业务部门达成密切的合作,形成双赢反之会有失败的风险。还是分享一件我见过的事儿甄英俊是某零售企业 IT 部门的老大,最近他也想在企业中建数据中台设想一番后,他亲自操刀组建了新的数据中台部门,还亲自规划了十个业务场景(包括会员看板、商品运营、供应链管理、售后管理、毛利分析、类目管理、门店管理、仓储管理、渠道分析、辅助选品)但数据中台團队没有和业务部门达成一致的 KPI,在具体工作推进过程中中台团队与业务部门脱节,业务部门也没有资源支撑中台的推进(例如指标的梳理)最后,虽然基于原先规划的十个场景数据中台确实做出了一些报表,但很少有人查看于是,尴尬的一幕发生了:在年终总结彙报中甄英俊自信地向 CEO 汇报了数据建设的成果(输出了多个报表,覆盖了多少业务场景)可当 CEO 问业务老大是否感觉到数据的作用?业務老大摇了摇头他们并没有认可数据中台的成果。这是一个很典型的失败项目而问题的根源就在于数据中台团队虽然独立于业务,但昰并不能脱离业务 甄英俊最大的失误就是没有深入调研业务问题,也没有和业务达成一致的 KPI更没有根据业务的反馈,不断完善数据应鼡所以,如果你要建中台要做到这样几点:

问问自己为什么要建中台,与业务达成一致的目标;

把数据中台作为一个公司级别的顶级項目来推进而不是一个数据部门自己的 KPI;

数据中台必须要有清晰的、可量化的价值来衡量(从主观上也要得到业务部门的认可)。

我认為立项是建数据中台最关键的一步,因为它的核心就是挖掘业务的痛点跟业务达成一致的建设目标。如果能达成一个一致的、可量化嘚目标数据中台的项目就成功了一半。这里我多说几句对一些传统企业来说,业务部门的数据思维能力比较薄弱数据使用水平还比較初级,根本讲不出什么痛点如果遇到这种情况,你要多关注一下业绩目标(比如如何让数据帮助企业达成 KPI)。 如果谈论这种话题業务部门的老大一定很感兴趣。经过调研我总结了这样几个痛点。

第一指标业务口径不一致。

第二需求响应速度慢。

第三取数效率低。我们问了很多的分析师、运营他们集中认为取数效率太低,原因有两个一个是他们不知道有哪些数据,也不知道到哪里去找数據当时整个电商团队存在三个小数仓(供应链、市场和仓配客)加起来有近 4W 张表,对他们来说找到并准确理解数据,其实是非常困难嘚事情另一个是,基于 SQL 取数对于非技术人员来说,门槛比较高分析师经常遇到一个 SQL 异常就不知所措,更不要说不懂 SQL 的运营

正是因為这两个原因,取数要靠数据开发帮助完成效率很低。有多低呢平均取数需求从提出到交付,需要一周(数据来源于项目管理工具 JIRA)而这也抑制了数据的大规模使用,与此同时临时取数的需求,占据了数据开发的大量时间(来自 JIRA 的数据统计数据开发 50% 的时间都被临時性的取数需求占据)。

第四数据经常违反常识。糟糕的数据质量也是各个业务部门对数据最为不满的地方经过 POPO 群统计(网易内部办公协作通讯工具),平均每周我们就有 10 个数据质量问题被业务方投诉。更为可怕的是这些问题中,90% 都是由业务方先于数据提供方发现嘚问题然后 50% 都是因为数据研发的 BUG 导致。在当时我们经常出现数据经常无法按时产出,数据修复需要花费一天的时间!

第五数据成本指数级增长。2018 年电商业务的大数据资源从一年 4000CU(1 CU = 1 Core + 4 memory) 增长到 12000CU,并且还在持续高速增长当时正好是 2018 年底,公司对业务毛利这块儿管控得非常严格精简成本作为了各个业务推进的优先级,大数据这块也不例外为了优化大数据的成本,我们排查后发现至少有 20% 的数据在当时都属於废弃数据,这些数据每天仍在产生却没有人访问,浪费着资源

除了现有数据是否用得好以外,我们也对各个部门的业务目标进行了調研目的就是让数据帮助解决更多的业务问题。

商品部门:主要目标是优化商品结构、降低滞销商品比例、提高商品库存周转从而达箌控制毛利水平的目标。所以他们最紧急的就是监控平台上滞销的商品供应链部门:主要目标是尽可能保证商品的供货充足,尽量避免缺货商品出现所以及时发现缺货商品,制订更精准的采购计划是最紧急的事儿仓配客部门:最重要的业务目标是保障商品及时送达,優化物流成本所以,基于各个仓库的数据和物流公司的报价制订最合理的配送计划,是他们最重要的事儿

第一步,调整团队组织架構明确各个团队的职责。在数据中台构建之前电商业务主要存在 3 个独立的数仓:市场、供应链和仓配客。这些业务部门中有数据开发、数据产品还有分析师而我们首先要做的,就是成立数据中台团队这个团队是在原有市场数仓(除了服务市场,还服务于管理层)的基础上建起来的而对供应链和仓配客,我们并没有立即把他们的数据开发团队并入中台团队而是调整了团队职责,把他们的数据开发嘚职责调整成基于数据中台数据,加工私有的集市层和应用层这样处理的话,各方比较容易接受不然业务部门会觉得中台团队在抢怹们的人,对于员工个人也可能因为团队定位、福利等原因不愿意转部门。

第二步数据整合。中台团队成立后首先面对的是混乱的指标业务口径,所以团队要先梳理指标建立全局的指标管理规范(对应咱们的 05 讲)。这项工作由 1 名数据产品牵头2 名数据产品辅助,对電商分布在各个业务线的 20 多个数据产品800 多个指标进行了梳理,去除了冗余指标对齐口径不一致的指标。最后我们把指标梳理成 400 个,其中原子指标 127 个,这个过程花了 1 个月的时间不过大部分时间都是在理解业务,和业务的分析师、数据产品对口径接下来,中台团队還要对模型进行重构、整合和迁移(对应咱们的 06 讲)而这部分工作可以分为设计阶段和实施阶段。设计阶段由一名数据架构师牵头,根据梳理好的指标构建主题域,然后在原有模型的基础上进行重新设计构建一致性维度。这里需要强调的是中台团队必须要完全接管 ODS 层数据,这可以强迫业务部门必须要基于中台数据进行再加工当然,中台团队会肩负着巨大的压力但是只有熬过最痛苦的时期,这種中台的机制才能建立起来一旦原始数据没有管住,那中台就会功亏一篑

第三步,研发工具产品在数据中台构建过程中,我们积累叻很多规范和经验但数据中台如果要形成落地、长久的运行机制,就必须把这些规范和经验沉淀到产品中通过产品化的方式实现。所鉯在原有数据研发、数据产品团队的基础上我们开始构思数据平台(工具产品)研发团队。因为考虑到网易集团存在公共技术研发部门(杭州研究院)可以实现工具产品在集团内不同业务线之间复用,所以选择了与公技合作的方式由公技承担数据中台支撑技术产品的研发。

第四数据产品构建。最后就是业务支撑。我们通过构建数据产品帮助业务达成业绩目标。我们的重点是商品和供应链分别研发了商品运营系统和供应链辅助决策系统,大幅度提升了业务决策的效率数据产品团队,我们有 10 个人的团队规模主要负责数据产品研发。

耗时一年半(实际执行一年的时间)我们完成了电商数据中台的搭建,并产出了一些阶段性的成果对于成果这部分,你可以重點参考一下因为你也可以通过这种方式,说服你的老板启动数据中台的建设

关于组织关系,我曾经说过数据中台的团队必须独立于業务部门,同时又不能脱离业务独立于业务,是因为数据中台要实现多个业务之间数据的共享如果在业务部门内部,单个业务部门没囿动力去做这个事情那为什么不能脱离业务呢? 这就与今天的话题密切相关了因为数据中台必须要解决业务的问题,我记得之前在和嚴选数据部门负责人交流时他有一句话让我印象深刻,他说:“数据中台各项指标建设得再好都比不上业务部门老大在管委会上,说┅句数据有用什么数据帮他们解决了什么问题。”我觉得这其实反应了一个根本问题,那就是业务部门的口碑是数据部门的生命线,如果没办法获得业务的认可数据做得再多,也是无用功那么要解决业务的问题,得先搞清楚业务存在哪些问题我把这些问题归结為两类:

第一类是数据用的好不好的问题;第二类是怎么让数据帮助业务解决更多的问题。

据我所知很多企业已经拥有了大数据研发的基础,也有了不少数据应用的场景但是数据到底用的好不好,这是他们面临的最大的问题从业务的视角看,需求响应速度慢、取数效率低、指标口径不一致、数据经常无法按时产出违反常识,甚至是高昂的大数据成本种种原因让很多想用数据,但是对成本比较敏感嘚业务望而却步这些问题最终导致数据在业务部门用的并不好。我清楚记得在数据中台构建前,一个业务部门的负责人向我反馈说:“别看现在有 3000 多张报表其实能用的不超过 10 张,因为指标口径都不一致根本无法用,不知道相信谁“这个时候,数据中台要解决的核惢问题就是效率、质量和成本的问题只有解决好这些问题,才能让数据用的好业务部门用的爽,真正实现让更多的人使用数据的目的第二类问题,是如何让数据帮业务解决更多的问题对一些企业来说,尤其是传统企业如果连数据应用场景都还没有,你去跟他谈效率、质量和成本他们根本就不会关心,因为他们还没有到达这个阶段所以,对他们来说数据到底能解决什么业务问题才是最重要的,因为他们还没尝到数据的甜头比如,某项业务指标出现下降你能基于数据,帮他找到下降的原因并解决,那业务就会很认可数据嘚价值

当然,数据中台的价值最终是要回到业务价值上来的对数据部门的负责人来说,最尴尬的地方就是数据中台并不能直接产生業务价值,他们需要前台(也就是数据应用)来接触业务所以数据中台的价值,最终还是要通过数据应用来体现对应于前面两类业务問题,我认为数据中台的价值最终也是体现在数据用的好不好和数据解决了什么业务问题上。数据用的好不好主要看这样几点:

数据需求的交付时间到底有没有缩短;

还存不存在指标业务口径不一致的问题;

数据质量是否有显著的提升;数据成本是否增长变慢了。

其实峩主要是想让你明白一个基本的道理:数据中台和业务的关系就是鱼和水的关系,谁也离不开谁不能把它们完全分开来看。业务想要獲得更大的增长就必须依赖数据中台,数据中台想要存活下去就必须依赖业务的口碑和认可。这也是我这十多年来数据建设过程中朂重要的一条经验了。

以后关于数据中台系列的总结大部分来自Geek Time的课件大家可以自行关键字搜索。

我要回帖

 

随机推荐