数据模型构建的构建应能够反映数据管理的哪些方面

本篇首先引入编程微课项目作为數据库的应用案例通过对项目功能及涉及的相关数据的介绍,让读者对数据库的应用有一个感性认识然后重点讲述关系数据库的理论基础知识。通过本篇的学习读者应该能掌握以下内容:

● 编程微课的主要功能

● 数据库的基本原理及数据模型构建

编程微课项目使用图攵,语言视频等方式进行内容教学,再附加各种训练题帮助练习和巩固知识。

微课内容来自于编程达人编程达人撰写课程内容,通過编程微课平台为编程爱好者提供课程内容获得收益。读者可以通过PC浏览器、微信小程序支付课程费用和学习课程内容并可以加入编程达人的朋友圈,与编程达人进一步互动交流学习

数据库可以理解为存储数据的仓库,每个数据项在数据仓库中都有编号通过编号就鈳以找到该数据项。例如图书馆就是存储图书的仓库,在图书馆存储的每本图书都有一个编号编号表示了书的类别和顺序号,同类别嘚书放在一个书架上便于图书管理员和读者查找图书。

图书馆存储的是图书数据库存储的是数据,每条数据称为数据项数据是对客觀事物的符号表示,如文字、图形、数字等在日常生活中,人们直接用语言来描述事物例如在描述一门课程时,人们常用“Java编程课程—入门篇由编程达人郎老师编写编程语言课,课程面向青少年编程爱好者课程以浅显易懂的语言,以常见的生活场景为案例带领大镓逐步进入计算机编程世界”。

在计算机中为了存储和处理这些事物,就要将事物的特征抽象出来组成一个记录来描述

例如,将课程倳物抽象为数据项记录(课程名称授课老师,类别、学生对象课程简介)。课程事物的一条数据可以描述为(Java编程课程—入门篇郎咾师,编程语言面向青少年爱好者,课程以浅显易懂的语言以常见的生活场景为案例,带领大家逐步进入计算机编程世界)

当需要存储多个课程数据项时,就构成了数据库因此,数据库是存储在一起的相关数据的集合这些数据是结构化的,无有害的或不必要的冗餘并为多种应用提供数据服务。

计算机应用于数据管理的初期由于没有必要的软件、硬件环境的支持,用户只能直接在裸机上操作當时编写的应用程序不仅要设计如何处理和存储数据,还要指明数据在存储器上的存储地址在这一管理方式下,应用程序和数据之间相互结合不可分割,数据独立性差缺少共享性,编程效率低下这一阶段称为人工管理阶段。

随着计算机软、硬件的发展数据管理进叺了文件管理阶段,这一阶段的主要标志是计算机有了专门管理数据库的软件——操作系统(文件管理)文件管理方式是把有关的数据組织成一种文件,这种数据文件可以脱离程序而独立存在有一个专门的文件管理系统实施统一管理。在这一管理方式下应用程序通过攵件管理系统对数据文件中的数据进行加工处理,应用程序的数据具有一定的独立性和共享性比手工管理方式更进了一步。

在文件管理階度数据虽然具备了一定的独立性和共享性,但由于数据的组织依然是面向程序数据不但存在大量冗余,而且数据自身的逻辑结构也難以满足不同用户对数据的要求为了减少数据冗余,提高数据的共享性和独立性人们对需要对使用的数据进行统一规划管理,形成一個数据中心构成一个数据库。数据库中数据能够满足所有用户的不同要求供不同用户共享。这个阶段称为数据库管理系统阶段

数据模型构建是数据库的基础,数据是对客观事物的符号表示模型构建是现实世界的抽象。数据模型构建是对数据特征的抽象

将客观事物抽象为数据模型构建,是一个逐步转化的过程经历了现实世界、信息世界和计算机世界这三个不同的世界,经历了两级抽象和转换如丅图所示:

图 2-1 数据抽象过程

现实世界是指客观存在的事物及其相互间的联系,人们一般选择事物的基本特征来描述事物事物可以是抽象嘚,也可以是具体的如课程属于抽象的事物,人们通常用课程名称、授课老师、类别、学生对象、课程简介等特征来描述和区分学生僦属于具体的事物,通常用学号、姓名、班级、成绩等特征来描述和区分

信息世界是对现实世界的抽象,人们把事物的特征和联系通过苻号记录下来并用规范化的语言描述现实世界的事物,从而构成一个基于现实世界的信息世界这个信息世界就是概念模型构建。概念模型构建主要用来描述显示世界的概念化结构它使数据库的设计人员在设计的初始阶段,摆脱计算机系统及数据库管理系统的具体技术問题集中精力分析数据以及数据之间的联系。在概念模型构建中最常用的设计模型构建就是实体—联系模型构建(ER模型构建),关于課程的ER模型构建如下图所示:

信息世界的概念模型构建还不能被数据库管理系统直接使用需要将概念模型构建进一步转换为逻辑数据模型构建,形成便于计算机处理的数据形式逻辑数据模型构建是具体的数据库管理系统所支持的数据模型构建,主要有关系数据模型构建、层次数据模型构建和网状数据模型构建关系数据模型构建是目前最流行的数据库模型构建,支持关系数据模型构建的数据库管理系统稱为关系数据库管理系统MySQL就属于关系数据库管理系统。关系数据模型构建以二维表结构来表示事物与事物之间的联系也可以称为实体與实体之间的联系。关于课程关系的二维表如下表所示:

表格 2-1 课程关系表

逻辑数据模型构建反映了数据的逻辑结构当需要把逻辑模型构建数据存储到物理介质时,就需要用到物理数据模型构建了物理数据模型构建是面向计算机物理表示的模型构建,描述了数据在存储介質上的组织结构它不但与具体的数据库管理系统有关,而且还与操作系统和硬件相关每一种逻辑数据模型构建在实现时都有对应的物悝数据模型构建。本课程重点讨论概念数据模型构建和逻辑数据模型构建物理数据模型构建不是本课程讨论的重点。

要设计一个数据库系统首先要将现实世界抽象到数据的世界,即将现实世界用数据进行描述得到一个现实世界的数据模型构建。

关系数据模型构建是目湔描述现实世界主要的抽象化方法它将用户数据的逻辑结构归纳为满足一定条件的二维表的形式。由于关系数据模型构建概念简单、清晰用户易懂易用,又有严格的数学基础因此,20世纪80年代以来推出的数据库管理系统都支持关系数据模支持关系数据模型构建的数据庫管理系统也称为关系数据库。

在描述现实世界的过程中为了分析的方便,可以将这一抽象过程分为两个阶段首先应用ER模型构建将现實世界抽象为一个信息世界,这种信息的结构不依赖于具体的计算机实现然后将信息世界的数据抽象为结构化的二维表形式,形成关系數据模型构建

下面以编程微课项目的学生与课程两个事物(实体)为例,对两个阶段的抽象过程作具体说明

在现实世界中描述学生和課程,要结合具体的事物场景来分析编程微课项目使用图文,语言视频等方式进行在线教学,学生可以在任何时间、任何地点使用手機或电脑打开课程学习结合上面的场景来分析学生和课程的特征。学生有名称、账号、登录密码、性别、年龄等基本特征;课程有课程洺称、授课老师、类别、学生对象、课程简介等基本特征;学生与课程的主要关系是学生学习课程

经过上面对学生和课程的分析,可以畫出学生与课程的ER模型构建完成第一阶段从现实世界到概念世界的抽象。ER模型构建如下图所示:

第二阶段将设计的ER模型构建抽象为结构囮的二维表形式形成关系数据模型构建。将ER模型构建转换为结构化的二维表形式非常简单一个事物(实体)对应一个表,事物(实体)的属性为表的字段事物(实体)之间的关系可以在一个实体的二维表中增加另一个实体的主要字段来实现。ER模型构建转换后的二维表洳下图所示:

图 2-4 学生课程二维表结构

可以把关系数据库理解为超市超市摆放商品的每一排货架为数据库表,货架中每一列为表的字段烸一行为表的一条记录。假设货架每行同列摆放的商品类别相同则可以把超市的每一排货架理解为数据库的二维表结构。由此可以看出关系数据库是由多个二维表组成的,在每个二维表中每行同列存储的数据类别相同

设计关系数据库时,需要两个阶段第一个阶段是需要将现实世界的事物进行概念化,抽象为概念数据模型构建此阶段最常用的工具是实体—联系模型构建(ER图);第二个阶段是将ER模型構建转换为二维表结构(关系数据模型构建),此阶段一般需要利用数据库设计工具进行设计如PowerDesigner、Visio等设计软件。

  【IT168 专稿】本文根据【2016 第七届Φ国数据库技术大会】(微信搜索DTCC2014,关注中国数据库技术大会公众号)现场演讲嘉宾郑保卫老师分享内容整理而成录音整理及文字编辑IT168@田曉旭@老鱼。


▲恩核创始人兼技术总监 郑保卫

  郑保卫于2013年12月被北京市朝阳区认定为“凤凰计划”海外高层次人才参与过大量关于数据架构、数据建模、数据治理、系统性能优化等方面项目,长期致力于数据架构及数据治理技术方面的研究和实践荣获2015年中国大数据领域領军人物奖,由国家信息公共服务平台及国家软件公共服务平台颁发

  大家好,今天我主要想和大家分享一些数据治理的经验和数据模型构建管控的方法其实数据治理的难度很大,因为牵扯的东西太多、外围的环境太复杂尤其是IT系统建设到一定程度的时候,你才开始做数据治理难度真的会非常大。数据治理的技术问题不大但是想要落地却不是那么简单。我主要讲解2个方面的内容:第一个是数据治理遇到的困难通过什么样的方式才能保证数据治理的落地。第二个是数据模型构建的管控方案

  从去年的后半年开始,我们就可鉯非常明显的感觉到传统行业都开始做数据治理了最近,我去过至少20家左右的银行他们无一例外都在做数据治理。他们通常的做法是先找咨询公司做咨询做完咨询之后开始往下一步走。一般咨询公司都是做两件事第一个是设计数据主题域,其实就是业务元数据把企业的数据分成几个大的主题域,并定义每个域里面包含哪些数据项第二个是定义数据标准,主要是定义业务用语包括它的内容、英攵含义等等。做得深入的一些企业数据治理成果在数据仓库建设过程中可能已经落地,但是效果不是太好还有一些企业可能有自己的數据部门,比如跨区域性的银行的数据部门可能有十几个人左右、地区性的银行可能只有四五个人

  IT建设从60年代开始,软硬件技术在發生翻天覆地的变化但是数据方面的技术和应用却在不断深化,从最早的数据应用、存储到现在的数据分析、管理、统计、整合、挖掘等

  大家有没有思考过为什么从去年的后半年到今年为止,数据治理会这么火?前两年很多企业都在做大数据应用但是传统企业几乎嘟是很惨烈的失败了,为什么?技术人员说数据质量太差了然后领导就会问怎么办?那就做数据治理呗。基于这个原因今年有很多企业在嘗试做数据治理。

  现在数据治理已经是一个普遍的话题了。前两年我还在给大家宣讲什么是数据治理?怎么做数据治理?现在不用讲这個事情了我去很多客户发现他们已经在做了。

  大家可以看一下这个趋势就会发现2-10年间,数据治理方面的技术需求一直处在上升期图中标注为红色的部分都是与数据治理有关的技术需求。

  数据质量问题是一个历史问题并不是做了数据治理就能完全解决,只能昰在一定程度上有所缓解从制度上、工具上、流程上有所保障。

  上图是数据治理在国内的发展变化14年之前,我一直在给大家宣讲什么是数据治理?什么是数据架构?为什么一定要做数据治理不做的话会带来什么问题。但是有很多人觉得这个东西太虚了离他太远了。囿些大企业的IT全部是外包他们只负责管理,在买来的半成品或者成品的软件中数据标准是不可能被使用的有时,我建议一些企业管理數据模型构建他们觉得没必要,同时也没有人力和精力去管理需要开发的时候就外包。

  早些年这种现象特别普遍但是随着大家對数据的理解越来越深,尤其是从今年开始这种情况逐渐发生变化,大家已经进入到第二个的阶段了我预测16-18年一定是个高速的发展阶段,这种项目从咨询开始到落地大概需要一到两年的发展时间那么到18年,第一期的效果就会展现出来所以说经过16-18年的高速发展之后,企业会对数据治理和落地方式有一个全新的认识也会找到一种适合自己企业的方案。

  18-22年的4、5年时间一定是成熟发展的阶段数据质量的治理是一个长期的过程,不可能一朝一夕就解决问题所以我认为18年以后是一个长期的过程。

  数据治理的发展其实也是数据发展嘚方向做数据治理和从事数据方面的技术人员不妨可以朝这个方面去努力,我认为路还很长未来一定是大有可为的,大家会越做越有經验、越做越深

  我个人认为可以从三个方面来看数据治理的项目:第一个是目标。企业数据治理的宏观目标就是为数据应用、项目管理、项目开发提供数据支持提升数据获取、共享或数据规划的能力。具体目标是构建数据标准数据模型构建、提升数据质量。另外僦是要构建一套适合自己企业实际情况的数据治理体系这里面包含内容的梳理、数据标准、数据模型构建。有些企业将数据标准分成2部汾一个是业务的,另一个是偏技术的管理流程,要有相应的人员和相应的流程来保障数据管理的落地以及数据治理平台的构建,还偠构建一套自动化校验体系

  第二个是项目成功的要素。依照我多年的经验如果数据治理从以下四个方面着手的话,或大或小都会獲得成功首先项目实施的人员一定要有经验,如果没有经验的话会有很多弯路要走另外,前期数据标准的制定、数据模型构建的设计嘟需要技术有非常丰富的经验人员其次,要基于数据架构去做数据治理第三,要有一套管理流程这个流程是要通过软件把流程部署箌产品里面,然后管理起来同时要可以进行校验。最后是数据可视化数据治理方面的数据可视化说的更详细一些是元数据的可视化,鈈管是业务元数据还是技术元数据都要有一定的可视化

  下面我们来详细介绍一下这四个方面的内容。

  1.实施人员必须具备丰富项目经验提供可落地方案

  这一部分没有什么可多说的,数据治理的实施人员如果没有5-10年的经验那么一定会出现很多问题的。

  2.提供基于数据架构的数据治理体系

  这个架构里面包含了业务架构、应用架构、数据架构业务部分其实包含了2个部分,数据部分和功能蔀分把业务描述里的数据提取出来,就是将来数据治理的对象所以它一定是首先基于首先业务架构,然后才是应用架构

  那么什麼才是数据架构,数据架构里面包含什么呢?主要包括数据标准、逻辑模型构建、物理模式等内容其中我们一直强调数据标准化一定要做箌单词级的标准化,什么叫单词级的?假设用户是一个单词姓名、电话、地址分别是不同的单词,这些单词可以拼接成用户姓名、用户电話、用户地址等等用语接下来为单词定义英文缩写,英文单词缩写与缩写便可按照一定规则拼接字段名,这种方法很容易在开发过程Φ落地逻辑模型构建向物理模型构建转换的过程才能基于数据标准去做。紧接着就是要根据业务功能和数据功能去设计模型构建设计邏辑、继承关系模型构建。数据收集包括数据域。最后是工具和流程的使用

  数据治理很多年前就已经在做了,但是为什么不成功呢?主要原因就是大家都在做偏向业务元数据的治理而没有基于此对技术元数据做很好的设计和治理。为什么不做呢?究其原因就是太难了拿着一套标准体系要求开发人员按你的要求去做开发,那是几乎不可能的事情失败的案例太多了,很多领导对数据治理都失去信心了所以,大家又换了一个高大上的名字叫数据资产化通过数据治理将数据变成资产。其实无论它的名字叫什么,其实都是在做一样的倳情只要产品想要落地,那么模型构建里一定要应用标准只有基于业务和应用架构去做,才能在最后实际生产环境里面落地和应用

  3.提供管控型管理流程和自动化应用数据治理系统

  之前数据治理不成功的原因还有一个就是管理。数据治理做完之后肯定要通过软件来管理在设计和开发阶段都按标准来管理,那么测试、上线、运营的时候也会有一些相关的数据要管理起来那么怎么管呢?如果是要囚工加载的话,那么势必得派一个人专门去管理如果没有专人管理,时间一长实际生产系统和数据管理系统就完全脱节了,时间再一長的话这个东西就没有价值了,那么也就意味着这个项目失败了

  这时我们应该改变思路,采用管控型的数据治理方案数据标准茬设计阶段或者分析阶段设计完之后,到模型构建设计的时候只要把逻辑模型构建建完,物理模型构建就千万不要动了逻辑模型构建姠物理模型构建转换的时候一定是基于数据标准去转换的。所以说从逻辑模型构建向物理模型构建转换的时候一定是要基于前面设计的數据标准去做,数据治理和生产系统只有在这里才可以合并如果合并不了的话,后面又会出现问题原来是两套并行的生产线,一定会茬某个情况下有交叉点交叉起来后面事情就简单了,现在有大量的工具可以保证数据治理成果的落地至生产系统的设计、开发、测试、運维等阶段

  还有一个比较重要的部分就是单词,单词的英文缩写包括域的英文缩写都要做到标准用语中去才好落地。如果做不到這个程度的话那就很麻烦就像我前面介绍的,逻辑设计完成之后就不需人力参与了,物理转换以及脚本生成全部由工具的实现

  4.提供可视化和共享知识库的数据治理系统

  可视化的方法有很多,只要能把东西展现出来就可以这里重点强调一下可视化数据模型构建。很多企业数据库里的很多数据是说不清楚的所以一定要通过模型构建来管理。

  校验一定要有一套自动化的校验工具标准数据模型构建在一定程度上是可以实现自动化校验的,但是无法实现100%校验不管是开发人员还是测试人员都需要制定一些规则去校验,只有校驗了才能及时发现问题比如,把员工的同义词定为职员或者管理员可能在使用过程中,大家没有使用标准用语这边是职员、那边是員工,但是自动校验工具可以自动把它们都转换成员工校验可以避免在使用中出现错误的使用或不正确的使用。

  现在知识库做的并鈈复杂基本不会出现问题,但是有些大企业是数据质量一套库、数据标准一套库、数据模型构建一套库数据库一套库,但是最终的数據治理只能用一套知识库来管理否则的话,像构建IT系统去构建数据治理体系肯定也会出现问题。因为你的标准是企业级的那么就要覆盖企业的各种业务系统,如果你拆分在不同的系统里面或者不同的应用里面就无法实现企业级。我们做数据治理的最终目标一定是面姠企业而不是面向某个部门或者某个业务系统,所以我建议一定要有一套统一的知识库来实现数据治理

  为什么要做数据模型构建管控?数据治理最核心的就是数据模型构建管控,我们先看看现在都存在哪些问题第一个是生产库里面存在大量的字段和表没有注释,意思含糊不清同名不同义、同义不同名,冗余字段、枚举值不一致的现象是普遍存在的这些问题都会直接影响到你对数据的识别。举个唎子有一家很大的公司要做新一代的CRM系统,在过程中发现普遍存在上述的问题因为很多人都离职了,而且环境换了很多次所以没有辦法只能把核心的功能改造了,把剩下的功能直接原封不动的迁移过去所以,如果不做数据模型构建管控那么这些历史问题会给新一玳系统改造带来很多困扰。

  第二个问题模型构建变更前的合理性是没有任何判断的。很多项目都是以开发为主开发人员说变就变。管理稍微好一些的企业可能会去追究变更是否合理但是很多企业是不管的,任由开发人员变更

  第三个是修改过程中缺乏监管和管理,因为有很多模型构建变更的评审通过了但是变更的过程是否按照原来的标准变更是不得而知的。

  第四个就是大家经常会遇到嘚问题因为工期特别紧,有的时候就直接写脚本进生产库了变更完之后没有人知道。但是要上线时出现问题了回头调查问题的时候發现,原来是谁给某个地方加了个字段或者加了一个表但是这个问题解决之后就又不管了。所以我们经常说很多企业的数据模型构建僦是一个黑盒子,好多大型业务系统里面表结构几万个能说得清楚的也就一两百个,这是一件多么可怕的事情!

  下面我们来总结一下這些问题第一个是审计工作或者评审工作的缺失,评审有没有指标?变更合不合理?人员能力够不够?第二个就是管理流程缺失没有把数据模型构建变更的事情纳入到开发管理的流程体系里去。第三个方面缺乏管理工具来辅助我们完成这件事情第四个是没有弥补措施,一旦發现问题了没有很好的弥补措施。

  如何解决这些问题呢?我认为应该从这三个方面去着手:第一个是岗位设置;第二个是管理工具;第三個是管理流程

  岗位设置方面,我认为一个企业里面最少得有一个架构师来做数据建模、数据标准管理、数据质量方面的工作。前期管理是有很大帮助的管理工具方面是指要有数据建模、数据标准变更的工具支撑完成工作;管理流程方面,要尽量说服企业把模型构建嘚变更流程纳入到生产管理流程里面去最后就是事前的监控和事后的弥补措施,数据模型构建的管控其实应该分成事前、事中、事后三個阶段其中最主要的就是事前和事后。

  银行行业在事前的阶段就做的比较好在模型构建变更之前它会有相应的人员去判断变更的匼理性。这就说明他们有这样的岗位设置但是每个企业的审计指标是不一样的,也是需要逐渐去完善的目前,审计工具没有特别好的大多数是在靠人力。事中就是监测变更过程中是不是按照原来规划好的去变更

  事后包含两个部分,一个是数据库对象不同版本之間的比对另外一个是模型构建与数据库的比对。比如上周的数据库版本、尤其是表里的数据和今天的版本是不是一致?模型构建与数据庫是否一致?

  上图是某个企业的管控模型构建,大家可以看到他将每个模型构建都管控起来了这是一个14年建立的移动行业的企业,它嘚IT系统建立的非常快仅仅一年就全部建立起来了,而且效率非常好、质量也很高这里还有一个非常值得我们借鉴的地方,就是他每个項目组里一定有一个专门的人去负责数据架构每一个模型构建之间有一个模型构建负责人,上面有一个总负责人来负责整个数据架构的管理

  近年来大数据成为了热门詞汇。作为一种新的分析方法大数据正运用在许多行业当中。但目前投资经理采用大数据技术相当有限这可能为投资管理行业打开一扇“机会之窗”。

  利用大数据扩展模型构建 进行“信息套利”

  花旗在《2016年投资主题》报告中表示在信息时代,利用大数据做交噫的投资经理将会远远走在同行之前在他们的扩展模型构建和那些运用传统分析工具的模型构建之间进行“信息套利”。

  随着大数據分析方法进一步提高数据容量、多样性以及更新频率在过去10年,系统化交易模型构建的创新技术加速发展定量分析与定性分析之间嘚差别将逐渐消失。

  定量基本面分析师可采用大数据技术将他们所要验证的变量扩展到行为、看法和感知反馈等数据,而这些领域鉯前只属于自主基本面分析师(discretionary fundamental researchers )这提供了一个更广泛的模型构建:通过使用一组新的数据,来解释相关的、类似的、最优的和低劣的數值而这些新的数据没有被纳入传统的投资模型构建当中。这就在运用大数据技术的公司和那些没有运用大数据公司之间创造了“信息套利”的可能性。

  (注:自主交易(Discretionary Trading)是指按照个人直觉或情绪、别人建议或其他非量化数据分析来决定的交易。)

  与现有模型构建的数据量和处理速度相同的情况下系统性交易模型构建可处理新的输入数据。新程序可能寻找大量输入数据之间的相关性而鈈是在传统数据集中简单地选择基于分析的交易,从而能够识别新的交易模式这些模式将价格活动与非价格相关的变量联系起来。“多洇素”的系统化程序使用了更广泛的数据集能够实现当前系统所没有的信息优势。

  如果新的建模能力与大数据分析方法相结合比洳预测分析和机器学习,就可以通过这些能“思考”的模型构建得出前瞻性的结论从而改变投资研究的性质。这将导致关注价值的定量基本面模型构建和关注价格的系统性交易程序趋于一致结果可能会形成一种新 的自动投资组合管理模型构建,该模型构建关注“未来价徝”并对一些还未发生的或还未公布的“可能性”事件起作用。

  大数据将消除定性分析与定量分析的差别

  据花旗新模型构建嘚关键将是扩展当前可用数据的阈值,采纳新的数据源而这些数据反映人们的观点、行为和动作,有助于自主基本面研究人员做出投资決策新模型构建可能不会完全包含所有的数据,但扩展数据将使量化模型构建能更深入地研究更广泛地假设。

  以石油和天然气行業为例假设有一家名为ABC的公司。基于资产负债表等财务报表自主投资组合基金经理和定量分析师的定量模型构建可能都创建了该行业Φ重要公司的相对排名。而这是目前大部分的定量模型构建能够走到最远的一步了

  与此同时,自主基本面投资组合经理能够与企业高管交谈并从他们的肢体语言中体会到他们对下一个季度所表现出来的兴奋或紧张。自主基金经理可能开始领悟到更多关于公司的近期活动如果他们感觉到公司活动不同寻常的繁忙或平静,他们甚至可能会造访并观察公司的办公室或一些设施他们还可能会联系业内人壵,询问他们是否察觉到投机机会或听说一些有意思的、新的人事变动

  通过上述努力,自主基本面基金经理认为ABC公司的CFO看起来比通常更乐观,并且公司的新闻里多次提到一些重要高管在过去一年如何增加了研发预算此外,一位业内已退休的老朋友提到他在最近嘚一次会议上看到了一位前同事,目前在ABC公司的新办公室工作这位前同事看起来十分疲惫,因为他刚刚从非洲回来而且这是他今年第彡次去非洲。得知这些信息后基金经理搜出了关于该公司未开发油

  田的相关报告,三个未开发的油田中有两个位于撒哈拉以洲地区透过这些信息,基金经理预测ABC公司或将很快宣布他们开发了新的油田。

  将上述的解释和预测进行“数据化”之后定量投资模型構建也能得到相同的结果。

  过去18个月语言程序利用情感分析,发现ABC公司公开使用的积极词汇和消极词汇的比例有明显变化积极词彙更多而消极词汇变少。过去4个月积极词汇加速增多。通过程序识别ABC公司高管在最新一年的新闻稿和采访中使用“研发”一词的频率,较此前12个月上升了182%此外,“勘探”与“扩张”使用频率也增加

  定量模型构建将这些高频词汇与提到ABC公司未开发油田的公开记录聯系起来,来确定是否有新文件公布出来并了解这些未开发油田的地理位置。量化模型构建提取出每个油田的卫星图片并进行时间序列图像分析,从而确定哪些油田的地貌有明显变化分析结果显示,中非和撒哈拉以南非洲地区均出现显著变化那么,量化模型构建的這一结论与上述自主基本面分析师所预测的一致ABC公司将在中非或撒哈拉以南非洲地区开发新油田。

  另外模型构建将ABC公司驻非洲员笁在社交网站上的照片进行定位分析。比如在20位员工中,有16位定位在撒哈拉以南非洲地区有2位员工出现在中非地区。这一系列因素结匼此前的预测模型构建可以断定,ABC公司将建立新的油田生产设施模型构建还可以更进一步,通过分析撒哈拉以南非洲办公室的建设进程判断油田可能将在三个月后开始生产。

  综上所述基于还没宣布的未来事件,自主基本面投资组合经理和量化模型构建都将会做哆ABC公司

  新型“未来价值”模型构建可能出现

  随着构建新定量模型构建经验丰富,以及系统化交易程序能够识别越来越多的定价模式可能会产生新型系统化组合管理模型构建,该模型构建将交易选择基于公司可能的“未来价值”

  这些未来价值模型构建开始於未来事件的输出(future event output)(如预计ABC公司将会宣布开发新油田)。新模型构建将未来事件进行分类并从历史记录中寻找ABC公司及其同行的类似公告,将这些公告日期标记起来检索事件前后的几个星期内相关公司的图表。

  公司某些新闻可能会引发价格变动定价模型构建可將平均价格变动幅度和持续时间进行量化。模型构建将检查公司过去90天的活动并确定是否有最相近的先例。模型构建每天都重新评估当湔和历史的价格模式并基于不断完善的数据来确定价格上涨还是降低。

  若事件公布正如预期当预期价格变动幅度和持续时间已实現,模型构建就会关闭头寸如果事件不在特定窗口公布出来,而预测分析发生了变化并且ABC公司发出公告的可能性降低,模型构建会关閉头寸或更早关闭头寸

  大数据使用的其它例子

  A公司通过分析社交媒体的数据,比较该公司与同行业的B公司在社交媒体上的活跃程度以判断其广告活动是否取得成功。

  一些公司通过观察中国建设活动的卫星图片来衡量中国经济是否稳健。

  在官方调查报告出炉前投资经理剖析消费者的交易数据以及旗舰店停车场汽车的数量,来预测零售活动

    本文首发于微信公众号:中国投行俱乐部。攵章内容属作者个人观点不代表和讯网立场。投资者据此操作风险请自担。

(责任编辑:刘伟 HF113)

我要回帖

更多关于 模型构建 的文章

 

随机推荐