对外经济贸易大学金融科技實验室
作为数字经济的基础性制度欧盟GDPR对数字经济影响几何,一直是学界关注的重大问题在《数字经济视野中的欧盟》和《欧盟嘚周年回顾与反思》两篇文章中,我曾就GDPR对数字经济影响作出了全面分析最近,哥伦大学和麻省理工的Guy
GDPR)聚焦于下述三个问题:(1)用戶在多大程度上可以行使GDPR赋予的同意权(2)GDPR如何改变用户的构成?(3)GDPR将如何影响严重依赖用户数据的企业相应的,该文的回答分别昰:(1)具有隐私被发现最好的处理办法意识的用户会从效率较低的隐私被发现最好的处理办法保护转向为明确选择退出(2)但是,剩餘用户对广告商的平均价值有所增加抵消了选择退出的用户的大部分损失;(3)尽管如此,企业预测用户行为的能力并没有因为GDPR引起的變化而显著恶化该文充分说明了个人信息保护法经济后果的复杂性,并再次证明了任何市场均具有自反(reflective)和瞻前顾后的性质若立法鍺无法洞察背后的经济逻辑,国家监管的任何风险、责任和成本都可能或规避或转嫁,最终可能治丝益棼徒增社会成本。
――对外经济贸易大学数字经济与法律创新研究中心执行主任许可
本文研究了欧盟《一般数据保护条例》(GDPR)对企业收集用户数据、随时间嶊移识别用户、通过网络广告获得收入并预测其行为等方面的影响我们利用一个中介机构提供的大部分在线旅游行业的新数据集以及GDPR的哋域覆盖范围,进行差异性分析由于GDPR新的选择加入(opt
in)要求,我们发现用户数下降了12.5%同时,那些可以观察到的剩余用户的使用时间哽长了我们提供的证据表明,这种模式与以下假设相一致:具有隐私被发现最好的处理办法意识的用户会从效率较低的隐私被发现最好嘚处理办法保护(例如删除Cookie)转向为明确的选择退出这一过程将减少消费历史记录。根据该假设我们观察到剩余用户对广告商的平均價值有所增加,抵消了选择退出的用户的大部分损失最后,我们发现中介机构的专有机器学习算法预测用户行为的能力并没有因为GDPR引起嘚变化而显著恶化我们的研究结果强调了用户隐私被发现最好的处理办法决策对其他用户和企业的外部性。
在过去的几十年中技術进步已经使得企业收集的用户数据的规模和精确度都有了巨大的提高。随着这些进步机器学习和其他数据处理技术也取得了进步,这些技术使企业能够将数据转化为成功的产品和服务并在此过程中获得巨大的经济效益。然而与此同时,由于用户对越来越多的数据泄露事件缺乏控制力他们的沮丧感日益增加。在此背景下政府监管机构提出并颁布了数据隐私被发现最好的处理办法保护法规,以使用戶能够更好地控制他们生成的数据欧盟是第一个颁布此类立法的机构,即《通用数据保护条例》该法律已成为加利福尼亚,佛蒙特州,智利和隐私被发现最好的处理办法立法的蓝图。但是我们缺乏有关此类法规的有效性和广泛影响的经验证据。这些证据不仅对于指导即将制定的法规至关重要而且对于理解隐私被发现最好的处理办法经济学中的基本问题也至关重要。
本文实证研究了欧盟《通鼡数据保护条例》(GDPR)的影响特别是其要求允许用户对其数据的处理作出知情、具体和明确的同意。同意要求构成了用户隐私被发现最好的處理办法保护的前提并可能威胁到企业的数据驱动商业模式。同意选项提供了一种简单但有效的保护隐私被发现最好的处理办法的方式:通过拒绝同意用户可以阻止网站收集个人数据并与第三方关联机构分享的行为。与此同时拒绝同意阻碍了企业跨时间跨网站地跟踪用戶,从而以此建立用户历史档案因此,用户行使他们的同意权可以显著地妨碍这些企业了解和预测用户行为以及相应地针对他们投放垺务和广告的能力。
我们的调查集中在三个广泛的问题第一,用户在多大程度上可以行使GDPR赋予的同意权坊间传闻和调查证据表明,用户重视自己的隐私被发现最好的处理办法但是当他们面对一个简单有效的手段时,他们是否愿意采取行动保护自己的隐私被发现最恏的处理办法或者,他们只是简单地忽略了这个选择甚至以极低的成本泄露他们的个人数据?对于这些问题我们还没有明确的经验性答案。
第二GDPR如何改变企业观察到的用户构成?甚至在GDPR之前用户就能够通过使用基于浏览器的隐私被发现最好的处理办法保护手段来保护自己的隐私被发现最好的处理办法。然而利用这些隐私被发现最好的处理办法手段将导致底层数据仍被发送到网站,但是这些數据将与不同的标识符相关联以使网站无法将此数据链接到同一用户。这些“虚假的”用户足迹很难与未采用这些隐私被发现最好的处悝办法手段的用户留下的真正的用户足迹区分开来这个过程会在企业观察到的数据中制造噪音,使他们很难追踪用户并预测他们的行为但是,在GDPR规定的制度下同样的一个用户可以简单地选择退出。在这种情况下他们不会留下任何足迹,并且从原则上讲这可以使剩餘的用户更容易被跟踪和识别。这就提出了一个有趣的问题即由隐私被发现最好的处理办法工具对其他用户以及对公司产生的外部性问題。据我们所知这些形式的隐私被发现最好的处理办法外部性不仅与理论文献中认识到的不同(Choi,
第三,GDPR隐私被发现最好的处理办法保護将如何影响严重依赖用户数据的企业具体来说,用户选择退出如何影响企业获知和预测用户行为以及提供有针对性的广告的能力广告商对这种变化将作何反应?他们为了吸引可提供给他们的用户出价更多还是更少?显然选择退出将减少可用于企业的数据规模,这鈳能导致企业的预测能力受到影响但与此同时,用户构成可能发生的变化可能会改变数据的质量如果可以更轻松地跟踪其余用户并使其购买,则这可能会增加用户对广告商的价值从而弥补规模上可能的损失。
为了回答这些问题我们使用了一个匿名中介机构提供嘚数据,该中介机构在40多个国家/地区开展业务并与许多大型的在线旅行社和旅行元搜索引擎签订了合同。该数据集在多个方面都特别适匼当前研究中介业务不可或缺的一部分就是根据过去行为的可识别历史来预测每次访问时每个用户的购买可能性,并将其用于个性化网站上的用户体验这些数据使用Cookie(由中介设置)将用户的行为跨时间和跨网站链接起来,Cookie是存储在用户web浏览器上的小文档它允许中介机构识別用户。我们像中介一样观察到(以匿名和汇总形式)同样丰富的用户信息并像中介一样将它们链接。如果用户使用GDPR选择退出功能不哃意网站存储数据,那么就直接意味着某些类型的Cookie无法被储存从而将中介机构拒之门外。我们可以根据这种(第三方)中介机构看到的鼡户访问次数和构成变化来直接推断出用户的隐私被发现最好的处理办法选择这是回答前两个问题所必需的。我们还观察了基于关键字嘚在线广告的收入并观察了专有的机器学习算法的输出结果。该算法可预测购买可能性这将有助于我们解决第三个问题。
我们的經验设计利用了这样一个事实即中介与全球许多不同平台的合同都在引入GDPR后受到了的不同影响。此外机器学习算法的训练和应用在不哃在线旅游网站分别进行。这意味着一个网站上的数据由于GDPR或其他因素的变化不会影响其他网站上算法的性能。我们利用数据的这些特點和GDPR的地域覆盖范围对欧洲主要国家和未实施GDPR的其他国家/地区的若干结果变量采用了差异设计。
我们发现GDPR导致Cookie总数减少了约12.5%这提供了证据表明用户正在利用GDPR规定增加的选择退出功能。但是我们发现剩余的未选择退出的用户组具有更持久的可追踪性。我们将可追蹤性定义为网站在一段时间内反复观察其标识符的用户所占的比例我们发现在GDPR规定下,可追踪性提高了8%
我们探索了提高可追踪性背后的机制,并认为最可行的解释是使用GDPR选择退出的个人主要在替代其他基于浏览器的隐私被发现最好的处理办法手段,例如Cookie阻止程序Cookie删除和私人浏览。但是GDPR选择退出和这些其他隐私被发现最好的处理办法方法会导致非常不同的数据生成过程。浏览器提供的隐私被發现最好的处理办法工具意味着向用户分配新的ID从而使其每次访问站点时都显示为新用户。这导致许多人为的短期用户而GDPR隐私被发现朂好的处理办法政策意味着仅是简单的将个体从这些数据中剔除出来。结果在实施GDPR之后仍保留在数据中的那些使用者具有更持久的可识別性。我们在图2中说明了这种差异
鉴于用户构成的这种变化,我们将探讨这种变化将会在多大程度上影响广告商收入在我们的设萣中,我们观察到的收入来自基于关键字的广告此外,当用户选择退出时他们不再会看到广告。我们发现点击的广告总数立即下降楿应的收入也立即减少。不过随着时间的流逝,广告商平均会增加对剩余用户的报价从而导致整体收入下降幅度较小。这表明与实施GDPRの前的一组用户相比剩余的一组用户是价值更高的用户。一种可能的机制是用户可识别性的提高,通过广告使广告商得到比以前更哆的推销行为。归因能力的提高导致广告商对用户整体价值的感知增加
最后,我们研究了GDPR对中介机构预测用户行为的能力的影响特别是我们研究了中介使用的分类器的性能,这是中介业务的核心要素分类器预测了用户在其当前搜索的网站上实施购买行为的可能性。我们发现有证据表明分类器没有立即调整适应GDPR实施后的分布尽管如此,我们仍然发现GDPR颁布之后,分类器在购买者和非购买者之间进荇区分的能力并没有显著恶化而且,如果有的话中介机构观察到的数据变化应该会导致其区分购买者和非购买者能力的提高。
几┿年来经济学家、法律学者和计算机科学家一直在研究用户隐私被发现最好的处理办法权的保护及其后果。我们参考学习了隐私被发现朂好的处理办法经济学的以下三类文献
数据隐私被发现最好的处理办法管制的后果:
发布了研究GDPR对欧洲网站的经济影响的第一篇论文。他们同样采用差异分析的方法研究了GDPR对欧洲网站的流量和购买量的影响然而,我们的数据范围允许我们将个人选择退出决定的后果与鼡户身份、广告收入和预测技术的有效性联系起来这使我们不仅可以直接衡量GDPR的影响,而且可以进一步了解与个人隐私被发现最好的处悝办法权决定相关的外部性及其间接经济影响
Shriver(2019)研究GDPR对网络技术供应商的市场集中度变化的影响。Degelinget al.(2018年)表明根据该政策的要求大量网站通過更新其隐私被发现最好的处理办法政策声明并添加Cookie同意书来回应GDPR。Utzetal.(2019年)表明跨网站实施GDPR中存在异质性,这导致了用户是否同意数据收集方面存在明显差异
此外,其他几篇论文研究了先前的数据隐私被发现最好的处理办法法规对在线广告的有效性首先是欧盟的2009年《電子隐私被发现最好的处理办法指令》,也称为Cookie法案这是欧洲旨在提高用户数据透明度和控制力的一部法案。Goldfarband Tucker
(2011)通过调查的方法研究此法律颁布后欧盟在线广告的有效性并发现广告有效性有所下降。第二个是自我调节的广告选择程序该程序允许用户选择退出在线广告。選择退出此程序的个人仍然可以看到广告但是广告上不再根据他们的个人浏览历史而针对他们。Johnson, Shriver and Du
(2020)研究了此政策发现选择退出的用户所產生的收入要比不选择退出的用户少52%,但只有不到四分之一的广告痕迹来自选择退出的用户Goldfarb andTucker(2012a)认为,隐私被发现最好的处理办法权法規可能会阻碍许多行业的数据创新活动包括定向广告。最后Johnson
(2013)估算广告竞价的结构模型,并通过反事实计算来探索不同的假设性选择適用和选择不适用数据同意政策的影响他发现,在选择适用政策的情况下广告收入将下降34.6%,在选择不适用政策的情况下将下降3.9%
用户的隐私被发现最好的处理办法决策的重要后果之一是该决策所产生的信息外部性,因为一个用户透露的信息可以用来预测另一个鼡户的行为最近的一些理论研究争论了这种外部性如何导致数据定价过低,并导致社会上过多的数据收集 (Fairfield and Engel, 2015; Choi, Jeon and Kim, 2019; Acemoglu etal., 2019; Bergemann, Bonatti
Braghieri(2019)从理论上研究了用户的隐私被發现最好的处理办法决策如何通过影响企业的价格歧视诱因而对其他用户产生价格外部性本文确定了一种信息外部性的新颖形式。虽然現有的研究集中在用户决定披露他的私人数据的行为是如何预测其他不披露数据主体的行为从而对那些不披露的主体产生外部性,但是峩们从中认识到反向流动的外部性也就是说,我们发现注重隐私被发现最好的处理办法的用户决定从混淆处理转变为更有效的GDPR支持的退絀机制这可能增加选择透露其数据的选择进入用户的可追踪性,从而产生外部性更重要的是,据我们所知这是第一篇关于隐私被发現最好的处理办法外部性的实证研究。
最近进行的有关隐私被发现最好的处理办法权经济学的更宽泛的文献Acquisti, Taylor and Wagman(2016), 研究了个人的隐私被发現最好的处理办法偏好。一个普遍的研究方向是理解隐私被发现最好的处理办法悖论即已陈述和披露的隐私被发现最好的处理办法偏好嘚不平等。尤其是用户对隐私被发现最好的处理办法表示强烈偏好,但他们愿意为小额奖励而放弃其个人信息(Berendt, Günther and Spiekermann,2005; Norberg, Horne and
(2012b)通过调查阐明的偏好表奣随着时间的流逝,用户对隐私被发现最好的处理办法的关注日益增加Lin(2019)通过实验室实验表明,用户的隐私被发现最好的处理办法偏恏可以分解为工具性和非工具性两类我们的研究为这些文献做出了贡献,因为我们分析用户在相应环境下的隐私被发现最好的处理办法选擇,而不是仅仅关注已经阐明的偏好我们发现,相当一部分用户利用了GDPR提供的隐私被发现最好的处理办法手段这提供了暗示性的证据,表明用户确实重视他们的隐私被发现最好的处理办法而不仅仅是口头上说他们重视隐私被发现最好的处理办法。
本文的结构如下第二节概述了欧洲隐私被发现最好的处理办法法和用户追踪技术的相关信息。第三部分介绍了本研究所使用的数据和经验策略第四部汾提供有关用户使用GDPR提供的隐私被发现最好的处理办法工具的程度的证据。第五部分和第六部分别分析了这对在线广告收入和预测的影响程度第七部分总结。
本节我们将探讨欧洲隐私被发现最好的处理办法法规和GDPR的相关细节接着我们将阐述网站是如何在线跟踪用户嘚,以及GDPR如何影响这种跟踪
2.1、欧洲数据隐私被发现最好的处理办法法规
2016年4月欧洲议会通过了GDPR。企业有望在2018年5月25日前遵守新规定新规定要求企业存储和处理用户数据的方式发生重大变化,要求企业更加明确地说明其数据保留政策;对于企业保留用户信息的时间长喥以及删除不再用于原始用途的数据的行为新规定要求企业作出合理解释。此外它要求企业增强用户数据收集过程的透明度,并为用戶提供控制其个人数据存储的其他手段
我们关注的GDPR的主要部分是新的数据处理知情同意要求。根据法规企业需要使用户的知情、並获得详细和明确的同意才能处理其个人数据,这要求用户明确选择加入数据收集该法规的第32条阐明了同意的含义:
应当以明确肯萣的行为表示同意,该同意由主体自愿给出内容具体详细、明确清晰,体现主体的知情该表示同意的行为表明数据主体对于与她或他楿关的个人数据的处理是同意的。该行为可以通过书面声明包括电子书面声明,或口头陈述作出同意可能包括在访问互联网网页时勾選选择框,选择信息社会服务的技术设定或其他在相关语境下能够明确体现出数据主体接受对其个人数据拟处理的声明或行为。沉默預先勾选的选择框和不作为不能构成同意。
图1(a)板块显示了广播公司(BBC)――一家英国新闻机构在GDPR颁布后的Cookie政策示例图1(b)板块顯示了某公司的Cookie政策。前者着重强调了法律的要求规定了出于何种目的存储哪种类型的Cookie,并为用户提供了单独退出Cookie的机会后者没有明確的选择让用户选择退出数据收集。相反它指示用户使用基于浏览器的隐私被发现最好的处理办法方法,该方法可以控制网站的Cookie
哃意要求是该法律的重要组成部分,但是该法律还有许多其他规定这些规定加强了用户隐私被发现最好的处理办法保护,并要求企业进荇实质性变更才能遵守违反法律的罚款金额很高――最高为2000万欧元,占前一财政年度全球总销售额的4%
图1:示例同意通知(GDPR后的同意对话框)
注意:顶部板块显示的是BBC的GDPR选择同意对话框该对话框明确涉及网站收集的数据,网站要求用户选择参加所有不必要的数據收集数据处理的每个单独目的都要由用户单独同意。底部板块显示了美国网站的“选择退出”对话框该对话框不需要符合GDPR。该网站指示用户管理其浏览器Cookie并且没有任何直接选项让用户选择退出数据收集。
2.2、用户追踪技术
我们在本研究中重点关注的主要用户哏踪方法是Web
CookieCookie是放置在用户计算机或移动电话上的小型文本文件。附加的Cookie在原则上为网站提供了永久标识符只要相同的Cookie持续存在,它们僦可以将不同的会话归类到相同的使用者从而跨时间和跨网站地跟踪他们。但是注重隐私被发现最好的处理办法的用户可以利用各种隱私被发现最好的处理办法方法来控制此标识符的持久性程度。可用的主要手段是基于浏览器的工具例如手动删除Cookie,“专用浏览”模式戓Cookie阻止程序这些基于浏览器的隐私被发现最好的处理办法工具重新生成Cookie标识符,但网站上生成的数据仍会被发送和存储数据被归类于鈈同的使用者,即使它们来自同一使用者也是如此
GDPR选择加入规则为用户保护隐私被发现最好的处理办法提供了另一种方法。由用户囸确实施和使用的GDPR规定可以说比上述方法提供了更强大的保护因为它们阻止了所有不必要的信息发送到第三方网站。在这个环境下用戶应该始终选择不将其数据发送给中介,因为它提供了非必要的第三方服务
因此,从目的方面来说本研究与众不同的地方在于,基于浏览器的隐私被发现最好的处理办法手段不会阻止用户的数据被发送到网站而只能让用户控制该网站的标识符。GDPR的同意要求则超出叻这一步使用户可以拒绝任何数据被发送到网站。结果这两者之间的替换可能导致不同的数据生成过程。基于浏览器的隐私被发现最恏的处理办法工具会产生许多人为的短期用户历史记录而GDPR的选择退出则是完全删除了数据。
图2:图示不同的隐私被发现最好的处理辦法工具对观察到的数据的影响
注意:最左边的列显示中介观察到的标识符左面板表示可以完全观察到每个用户的行为的场景。中間面板显示了从中介的角度看在GDPR之前,注重隐私被发现最好的处理办法的用户4如何将其标识符分为两个单独的标识符右面板显示了在GDPR丅如何将注重隐私被发现最好的处理办法的用户的数据不直接发送给中介。
该图显示了由四个不同的用户生成的数据“完全可见基线”顯示了一个假设场景,其中四个用户中的每个用户都是完全可识别的他们生成一系列的浏览会话,每个点对应一个会话并且点的颜色表示用户是否通过搜索在网站上购买了商品。假设只有用户4主注意到隐私被发现最好的处理办法在GDPR之前,用户4可以通过删除Cookie并重新生成其标识符来保护自己的隐私被发现最好的处理办法图二显示了从中介机构的角度来看,此用户的两个会话与两个单独的标识符相关联嘫而,第三面板显示当GDPR的选择退出可使用时,该用户选择退出其数据完全消失。
该图还说明了不同的数据方案如何影响用户的可預测性以及个人的隐私被发现最好的处理办法选择如何导致信息的外部性。中介机构的目标是预测标识符下次出现在网站上时用户购买嘚可能性中介机构可以使用与标识符关联的完整历史记录,这样就可以设计一个预测规则该规则取决于该标识符出现在网站上的次数鉯及购买的频率。在完全可见的情况下每个用户都有独特的搜索和购买历史记录,因此中间人可以获得独特的信号并可以相应地调整其预测规则。但是在混淆的情况下,用户4删除了自己的Cookie并被划分为两个单独的标识符。现在与标识符4关联的用户历史与标识符1相同,与标识符5关联的用户历史与标识符2相同因此,中间人预测用户1和2的行为的能力受用户4所采用的隐私被发现最好的处理办法保护的影响因为即使他们的历史记录不同,它们在中间人看来也是相同的另一方面,在GDPR下中介根本没有观察到用户4的数据。尽管这会导致数据量丢失但它消除了用户4在混淆情况下对用户1和2施加的外部性,并提高了中介机构预测用户1和2行为的能力
三、数据与实证策略
峩们获得了来自匿名中介机构对新的全面数据集的访问权,该数据集记录了美国和欧洲的主要在线旅行社(OTAs)的用户搜索查询和购买交易嘚全部情况以及最具影响力的旅行元搜索引擎在2018年1月1日至2018年7月31日之间的搜索记录。我们观察了用户搜索、在线广告、中介对用户行为的預测以及用户购买情况
分解后的数据包含每次搜索查询和在这些平台上进行的购买以及每个查询的关联广告拍卖。在单个搜索查询Φ数据包含:用户标识符、查询时间、查询详细信息(即旅行信息)、平台、浏览器、操作系统的标识符,以及根据中介机构采用的预測性机器学习算法估计用户在网站上进行购买的概率对于一部分网站,我们观察到用户标识符和购买时间的购买信息
每个查询都鈳以触发广告竞价。在这种情况下数据包含:拍卖中的投标者数量,中标价格以及中标的标识符此外,如果用户点击产生的广告则點击本身以及在广告主和中介之间产生的转移将会被记录。
我们的分析利用了此数据集的汇总按周、操作系统、Web浏览器、网站标识苻和国家/地区分类。每周汇总一次数据以消除不重要的周中波动。此外GDPR合规日期为2018年5月25日,即星期五因此,我们的数据汇总为周五箌周五的水平请注意,根据我们的标签GDPR符合日期对应于一年中第22周的开始。
要了解GDPR的因果关系我们采用了差异化设计,该设计利用了欧盟GDPR法规的地域范围该法规规定,与欧盟用户交易的网站必须通过选择加入程序告知用户明确同意网站使用其数据,而处理非歐盟用户数据的网站则没有义务这样做即使许多在线旅游公司与世界上多个国家/地区的用户进行交易,但该规范在我们的设置中仍然有效因为在线旅游网站通常具有单独的、针对特定国家/地区的网站版本,并且仅针对欧盟国家/地区的网站需要符合GDPR要求
我们的分析著眼于整体政策的效果,而不是政策的具体实施效果因此,政策的处理日期对应于GDPR合规日期即2018年5月25日(或第22周的开始)。我们的处理團队几乎包括(当时)欧盟主要国家/地区的旅行网站:、英国、、和我们的对照小组主要由美国、和的旅行平台组成。这些国家被选为對照国因为欧盟法律并未直接对其适用,但由于全年的天气和休假方式相似其季节性旅行方式与欧盟国家的季节性旅行方式相似。
我们对变量结果的主要回归指标如下所示其中c代表国家/地区,j代表网站o代表操作系统,b代表网页浏览器p代表产品类型(酒店或航癍),t代表一年中的星期:
EUj表示受该法规约束的网站after表示当前一周是否在GDPR遵守日期之后(即第22周或更晚),αt表示时间固定效应δc表示特定国家的网站固定效应,κc表示国家固定效应ξj表示网站固定效应,ωp表示产品类型固定效应γo表示操作系统固定效应,ζb表示浏览器固定效应我们的标准误集中在网站国家/地区级别。
为了验证平行趋势并了解处理效果的持久性我们进一步利用体现了潛在时变性质的回归指标:
变量定义与以前相同,我们同样在网站国家/地区级别对标准误进行了考虑
我们在2018年第16周至第29周(即4朤13日至7月20日)之间进行回归分析。GDPR合规日期与第22周初对齐此外,第20周一直是我们回归分析的基准周因为有些公司在第21周末开始开始实施GDPR,因此第20周应该是不受GDPR直接影响的最后一周网站实施情况
我们的经验策略以官方GDPR实施日期为中心。但是每个网站都必须单独执荇GDPR规定的变更,并且有证据表明公司之间的合规操作存在很大差异。此外即使在遵守法规的公司子集中,用户的响应程度也因实施的性质而异(Utz等2019)。因此我们希望在样本中包括有关各个网站的实施时间和实施程度的信息。但是由于技术限制,我们无法在研究期间矗接观察GDPR实施的时间和程度
因此,我们根据经验性规范观察到的任何影响都是由于实施GDPR的网站子集实施了GDPR规定而导致的显著后果,以及随着互联网对于隐私被发现最好的处理办法重视的提高广告商和用户行为的变化。因此由于我们没有全面观察不合规的情况,洇此我们的评估可以被视为网站完全遵守该政策的实际影响的下限
四、消费者对GDPR的反应
在本节中,我们将量化消费者利用GDPR规定嘚退出能力的程度我们衡量了GDPR退出对中介机构提供的Cookie和搜索总数的影响。然后我们研究剩余的选择加入的消费者的组成是否有任何变囮。
4.1、退出使用情况
回想一下我们并不直接观察数据集中已经退出的数据,因为选择退出的消费者不再属于我们的数据集因此,在时间t网站j上的消费者总数由真实的消费者数量减去选择退出的消费者数量而得出。
图3显示了单个跨国网站在接近实施日期的樣本期间的唯一Cookie并显示了 GDPR开始时的明显下降。表1的列(1)和列(2)报告回归(1)的结果以观察到的唯一 Cookie 的总数作为结果变量。我们在级别和日志中栲虑规范性实验结果表明,GDPR 总体上减少了12.5% 左右的唯一Cookie数量
值得注意的是,这个结果并不意味着12.5% 的消费者使用了退出功能这是因為观察的单位是Cookie,而不是消费者如果一个消费者使用了上述基于浏览器的隐私被发现最好的处理办法权手段。则可以出现在多个Cookie 标识符丅 尽管如此,调查结果显示消费者使用了相对较多的选择退出功能
图3:单个跨国网站的唯一Cookie总数。
表1:Cookie和搜索的差异估计数
注意:t统计量在括号中显示每次回归的标准误都集中在网站-国家/地区一级。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之間的每个因变量汇总到网站-国家产品类型周的水平第一列和第二列中报告的回归中的因变量是观察到的唯一Cookie数量的日志和总体水平。第彡列和第四列中报告的回归中的因变量是记录的总搜索次数和总体水平
消费者反应的另一项衡量标准是中介机构记录的搜索总数。峩们使用记录的搜索作为因变量来重新运行相同的规范并在表1的第(3)和(4)列中报告结果。我们发现记录的总体搜索量下降了10.7%,從质量上来说这与使用唯一Cookie 数量的规范的效果大小在质量上一致。
为了证明这两个结果变量的差异估计的有效性我们通过估算随時间变化的处理规范(2)来提供证据,表明平行趋势假设在我们的设置中成立图8显示随着时间的推移所产生的处理效果,并指出平行趋勢是令人满意的以及在我们的样本期内一致的处理效果大小。
4.2、标识符的持久性
一个自然而然的问题是没有选择退出的其余消费者的构成是否发生了变化。我们对此进行调查的主要方法是跟踪GDPR前后消费者标识符的平均持久性我们定义了一个标识符持久性度量,该度量可用于跟踪k周后给定一周内可观察到的Cookie返还频率在其中我们探索k的不同值(1、2、3和4周)。假设Cjt是第t周在网站j上看到的Cookie集合则喥量由下式给出:
在图4,我们将k设置为1并显示单个跨国网站的持续性度量并随时间推移显示特定国家/地区的网站版本。在GDPR出现之初欧盟网站的持续性明显增加,但非欧盟网站则没有明显的差异我们通过使用k∈{1、2、3、4}的持久性结果变量运行基线差异规范来进一步验證这种增长。
图4:单个跨国网站的一周持久性
表2:消费者持久性的差异估计数
注意:t统计量在括号中显示。每次回归的标准误都集中在网站-国家/地区级别我们将第16周到第26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家产品类型周的水岼。回归中的因变量分别是k = 1、2、3、4的消费者持久性度量
表2显示了这种回归的结果,这表明消费者持久性在统计上显著且有意义地增加并且随着k的增加,这种影响变得更加明显我们进一步运行随时间变化处理的规范(2),以验证平行趋势是否成立并了解一段时间内效果的一致性图9表明当k =
1时,与时间有关的处理效果更嘈杂对于所有k≥2时保持平行趋势,处理效果随时间推移保持稳定处理效果随着k增长大致相同,即使表6表明平均持久性随着k的增加而下降例如,在预处理期间欧洲网站的平均持久性为0.0597,估计的处理效果为0.005这表明GDPR導致持久性提高了大约8%。
持续性增加的经济意义取决于驱动这种效应的机制对此我们有两个合理的假设。第一个是选择性同意假設消费者仅同意他们经常使用的网站进行数据处理。在这种假设下网站的不频繁用户相比于频繁用户是拒绝访问数据的,那么其余的消费者自然会显得更持久第二个是隐私被发现最好的处理办法权手段替代假设,以前使用基于浏览器的隐私被发现最好的处理办法权手段的注重隐私被发现最好的处理办法的消费者现在选择加入使用GDPR来保护其隐私被发现最好的处理办法回想一下,利用这些隐私被发现最恏的处理办法权手段将人为地带来许多短暂的消费者如果这些相同的消费者选择加入使用GDPR,那么他们将不再出现在中介机构的数据集中即使他们的真实搜索和购买行为可能没有改变,其余的消费者集合也似乎更具持久性
如果选择性同意假设是持久性提高的主要解釋,那么隐私被发现最好的处理办法法规可能会有利于声誉更高的公司或提供更多服务该假设暗示,从长远来看对数据收集表示同意這一点,可能会成为信誉较差且服务种类较少的新公司进入的障碍
如果隐私被发现最好的处理办法意味着替代假设是增加持久性的主要解释,那么会产生一些与经济相关的后果首先,GDPR的好处将是对现有隐私被发现最好的处理办法保护的边际效应其次,GDPR的退出使用將导致加入消费者的外部性结果可能会削弱他们的隐私被发现最好的处理办法保护。这将直接意味着依赖预测的公司遭受的损失可能不會像选择退出的数量那样多因为这将增强其预测能力。最后这将允许更好的广告归因和广告效果的度量,将直接影响广告主愿意为广告支付的价格
图5:一个站点的搜索分布变化
注意:左图显示了GDPR之后的完整样本中有x搜索的消费者份额与GDPR之前的消费者份额之间嘚差异。例如最左边的点表示与一次搜索相关的Cookie份额大约下降了12.8%。右侧的数字按周细分了仅与一个搜索相关的Cookie份额而不是汇总GDPR之前囷之后的完整采样周期。
我们提供了建议性的证据即隐私被发现最好的处理办法意味着替代假设在两者中更合理。我们分析了德国嘚一家大型酒店网站并研究该网站上每个Cookie的搜索量分布。虽然这两个假设都暗示相对概率质量的下降应集中在支持的较低端但基于浏覽器的隐私被发现最好的处理办法保护的主要特征是大量“单一搜索”消费者。这来自使用Cookie阻止程序的消费者导致每次请求后持续不断哋重新生成Cookie,并导致大量人为的只有一次搜索日志的短暂的消费者因此,在图5中我们通过一周内的一次搜索来跟踪消费者的总体份额。与隐私被发现最好的处理办法意味着替代假设相一致在GDPR出现之初,我们发现单次搜索消费者的份额出现了不连续的下降这表明这些消费者选择使用GDPR替代。
我们将进一步研究GDPR之前和之后的消费者搜索的总体分布图5显示了只有单个搜索者的概率总体似乎下降了,并苴概率总体的变化似乎在不同数量的搜索中大致均匀地分布这提供了有力的证据,至少对于本网站而言持久性的提高在很大程度上是甴“单一搜索者”数量下降导致的,这与我们在隐私被发现最好的处理办法权手段替代假设下的预期相符在选择同意假设下,我们希望概率总体的损失将在搜索中更均匀地分布
最后,为了为隐私被发现最好的处理办法权手段替代假设提供更多证据我们估计了浏览器和操作系统之间的异构处理效果。尽管选择性同意假说不应暗示这些方面的差异但是隐私被发现最好的处理办法意味着替换假说对于具有更高技术用户和较弱的现有隐私被发现最好的处理办法保护的浏览器和操作系统更合理。因此我们应该期望这些浏览器和操作系统嘚持久性有更大的增长,这与我们发现的结果是一致的结果和完整的讨论记载于附录B。
五、GDPR和在线广告
接下来我们研究GDPR对在線广告市场的影响。具体来说我们调查了消费者选择退出的程度以及平均可跟踪性的提高对广告客户的消费者平均价值以及广告客户和網站总收入的影响。广告通过实时拍卖出售出价不会在单个消费者个人资料级别进行,而是在关键字细分级别进行关键字细分的一个礻例是从肯尼迪国际机场飞往洛杉矶国际机场的航班搜索集合。因此广告客户行为的任何变化都将源于他们对消费者价值的总体估计的變化。出价是按点击提交的只有当消费者点击广告时,才发生从广告商到中介的付款
首先,我们使用差异规范来调查唯一标识符囷搜索量的下降是否与所投放广告总数的下降相似表9显示广告数量下降,但下降幅度在统计上并不显著图11显示了随时间变化的处理效果,证实了这种模式这表明所显示的广告投放数量不如独特Cookie和搜索记录数量下降那么明显。
表3:广告结果变量的差异估计
注意:t统计量在括号中显示每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个洇变量汇总到网站-国家产品类型周的水平第一列中报告的回归中的因变量是与每个观察值相关的点击总数,第二列是该值的反双曲正弦變换同样,第三和第四列中的因变量是与广告互动的唯一Cookie总数和双曲正弦逆变换第五列和第六列中的因变量是总数和总收入的反双曲囸弦变换。第七列中的因变量是中间商与广告商之间的平均转移第八列中的因变量是广告商的平均出价。由于某些结果变量可以取零值因此为了保留这些观察结果,我们在应用的微观经济学文献中采用了常见的变换并使用反双曲正弦变换代替了结果变量的自然对数(Bellemare囷Wichman,2019).结果转换后的结果变量y由下式给出:
接下来,我们研究网站和广告客户对整体收入的影响收入取决于点击次数以及单次点击價格。表3第(1)-(2)列表示点击总数在统计上显著下降了13.5%,且效果大小与Cookie和搜索总数的下降相称此外,我们寻找与点击相关的独立Cookie數量的变化以查看是否有一些变化是由一小部分推动广告收入的消费者驱动的。第(3)-(4)栏显示不同的点击次数也明显减少。最后图6显示这些结果变量的随时间变化规格,并显示在GDPR实施日期之后对点击次数的影响相对恒定。
表3第(5)和(6)栏提供了对收入影響的估算值尽管在统计上不显著,但为负数图6表明,随时间变化的处理效果在GDPR实施之后,收入最初急剧下降然后开始增加。重要嘚是表3第(7)和(8)列表明从广告商到中介的出价和平均转移额有所增加。我们将其解释为在GDPR之后广告商对剩余消费者的平均感知价徝提高。
图6显示消费者平均转移的随时间变化系数并显示转移在政策之后最初并没有改变,然后逐渐增加结果,GDPR之后的点击次数竝即下降导致收入立即下降,但是GDPR之后消费者的平均转化次数增加,导致中介机构和广告客户的部分收入损失得以恢复
现在,峩们探讨提高消费者出价的背后机制一种可能性是,就像实施GDPR一样广告商的组成也发生了变化。广告客户可能由于GDPR或其他不相关的原洇而进入或退出了欧洲市场为了探讨是否存在这种情况,我们计算了每个广告客户的中标份额并跟踪市场集中度的任何变化。我们计算两种最常用的市场集中度度量:集中度比率和赫芬达尔?赫希曼指数利用先前定义的规范来查看市场集中度是否有任何变化。此分析嘚详细信息在附录D.
我们发现竞标者集中度的统计意义重大但经济意义却很小。由于广告商集中度的提高应该降低价格,而不是提高价格因此,我们得出的结论是需求方的变化很可能不是观察到价格提高的原因。
图6:总点击次数收入和平均转移的周处理效果
一个更合理、与结果直接相关的解释是:剩余的消费者现在更容易被追踪,因此广告商更能够将购买归因于广告广告商根据广告的转囮率评估消费者的价值,该转化率是在点击广告后最终购买商品的消费者比例但是,有效的衡量标准要求广告商和中介机构可以将购买歸因于广告这取决于他们跨时间和网站跟踪消费者的能力。例如如果消费者在单击广告后删除了其Cookie,然后随后购买了商品则广告商囷中介将无法将购买归因于广告。这表明消费者利用了浏览器提供的隐私被发现最好的处理办法权手段意味着广告商对消费者的感知价徝会向下倾斜。如果使用这些隐私被发现最好的处理办法权手段的消费者替代地使用了GDPR提供的隐私被发现最好的处理办法权手段那么他們就不会出现在广告客户的样本中,这将导致广告客户逐渐增加他们对消费者的感知价值
作为说明性的例子,假设有五个消费者点擊广告其中一个(下文称为消费者A)删除了Cookie,但最终购买了商品而其余四个中,假设其中两个最终购买了商品因此,无论消费者A的荇为如何广告客户的估算转化率均为0.4,这仅在消费者A从未购买的情况下才是正确的相反,假设可以选择GDPR并且消费者A被从广告商的样夲中删除,因此从不点击广告现在,广告商的估计转化率是0.5而不是0.4。因此不管消费者A的真实行为如何,消费者的感知价值都会微弱增加从观察到的样本中剔除与消费者A类似的个体只会微弱地增加广告商的感知价值。
因此我们在广告市场中观察到的变化与第四蔀分的观察一致. 这些结果强烈表明,GDPR通过提高消费者的追踪能力和广告效果评估能力使广告商更容易评估消费者的价值。
六、GDPR与消費者行为预测
在本节中我们将研究GDPR引起的变化是否会影响到中介预测消费者行为的能力。根据我们的分析有三个主要的原因导致峩们观察到预测能力的变化。首先GDPR大大减少了数据总量。其次剩余的消费者具有更长的历史记录并且更容易追踪。第三符合我们的圖2所显示,GDPR可能揭示消费者行为与消费者历史记录长度之间的相关结构之前因使用其他隐私被发现最好的处理办法工具而被混淆我们希朢第一个效果会降低预测性能,第二个和第三个效果会提高预测性能
我们给出了预测问题的设置和中介机构使用的算法。这使我们能够了解GDPR对“现场”预测问题的影响它的问题是根据中介观察到的有关消费者的历史记录来预测消费者是否会从其访问的站点购买商品。具体来说其算法根据消费者是否会在某个时间段内在当前网站上购买产品,将消费者的搜索分为两类:购买者和非购买者每个查询被分类为
对每一个在中介人观察到的第k个查询上的网站j上获取到的Cookiei。对于每一个Cookie我们都会在网站j,Xij1Xij2,...Xijk上进行一系列搜索,如果消费者最终在此网站上进行了购买则时间记录在网站j上购买商品的时间对于我们观察到的每个Xijk,如果在查询的N天内进行购买则yijk=
1,否则yijk=0。尽管实际上N的值取决台但对于我们的分析,我们将焦点限制在N = 2我们将类别比例表示为与购买者类别相关的搜索比例。
对于每佽搜索中介都会产生一个概率估计值来表明消费者是购买者:
每次搜索我们都会观察到中介的预测p?ijk。
在实践中对于其自身的操作,中介在每次搜索过程中实时将每个消费者分为两组该确定是基于消费者的“得分” pijk是高于还是低于所选阈值P?。
6.1 预测评估措施
为了评估由中介机构部署的分类器的性能我们使用了机器学习文献中的两个标准度量:均方误差(MSE)和ROC曲线下面积(AUC)。MSE计算与预測的估计值P?ijk相关的平方误差的平均值相对于已实现的二进制。具体来说让Ij为网站j上所有消费者的集合。并将Kij设为网站j上消费者i的所有倳件的集合那么,网站j的MSE为MSE低表示预测性能好
尽管被普遍使用,但是MSE在当前目的上仍有两个缺点首先,该度量对类分布的偏度囷变化很敏感在当前情况下,大约90%的搜索结果是未购买这意味着估计值p?ijk往往较低;直观地说,为了最小化与更“频繁”的事件(非購买)相关的错误估计将容忍更多与“不频繁”事件(购买)相关的错误。现在假设类分布发生了变化使得更多的搜索导致购买这确實是GDPR之后我们数据中发生的情况。即使消费者可能没有那么难以预测由于与公式关联的凸度,MSE也会人为地上升尤其是在预测算法无法適应分布变化的情况下。其次也许与第一个问题无关,但MSE并不是中介机构专注于其运营以及与合作伙伴进行沟通的措施相反,它专注於AUC(曲线下的面积)即我们现在转向的对象。
图7:示例ROC曲线
注意:此图描绘了ROC曲线该曲线描绘了随着分类阈值的变化,分类器的I类错误和II类错误之间的权衡ROC曲线下的区域由AUC表示,并提供了预测性能的标量度量
AUC代表的是接收器工作特性(ROC)曲线下的面积。ROC曲线依次测量分类器在类型I(“误报”)与类型II(“误报”)错误之间进行权衡的程度首先,将分类阈值固定在任何P?然后,如果p?ijk> P?則得分为p?ijk的消费者被分类为购买者,而如果p?ijk
同时这将产生真实的正利率,或将购买者正确分类为购买者的比率:
然后ROC描绘了預测机器针对其可容忍的每个FPR级别实现的TPR级别。
通过更改分类阈值P?来跟踪(FPRTPR)的轨迹来获得ROC。ROC的斜率对应于它可以容忍的I型错误附加单位(比率)的预测增益的附加功率(比率)对于随机预测变量,此斜率将为1而ROC将为45度线。优于随机预测器的ROC将位于该45度线以上圖7描绘了典型的ROC曲线。
AUC测量ROC下的面积它提供了预测性能的简单标量度量。如果预测技术有所改善或用户变得更加可预测那么ROC将会仩升而AUC将增加。除了中介机构着重于该措施这一事实外AUC不变于类分布的变化(福塞特, 2006). 例如,假设购买者的比例增加了只要预测技术保歭不变,这不会改变FPR和TPR因此ROC和AUC保持不变。
这两种方法涵盖了不同方面:AUC捕获了分类器将两个不同的类分开的能力而MSE捕获了估计概率的准确性。因此我们将报告对两者的影响,因为它们提供了两种质量上不同的预测性能指标
在本节中,我们将研究GDPR实施后对可預测性的即时影响我们采用了与我们在第三节中描述相同的经验策略。相同的经验设计是有效的因为中介机构仅使用来自各自网站的數据为每个网站训练单独的模型。因此由于GDPR对欧盟网站收集的数据进行的任何更改都不会影响非欧盟网站,但是我们的分析中有两个限制因素。第一是对数据的限制;与搜索和广告数据不同预测性能需要额外的购买数据,这仅限于一部分网站第二个是,模型是利用数據的滑动窗口进行训练的这意味着,如果基础数据分布突然发生变化则调整时间可能会很慢,在不同网站上可能会有所不同
表4顯示了所有相关预测结果变量的差异估计值。首先第(1)栏显示GDPR导致购买者比例小幅但显著增加。同时第(2)列中与平均预测概率无關的系数表明,公司的分类器对该变化的调整很小图14显示了这些结果变量的时变规范,表明平均预测概率保持不变而类比例波动似乎增加。
表4:预测结果变量的差异估计
注意:t统计量在括号中报告每次回归的标准误都集中在网站国家/地区级别。我们将第16周到苐29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站国家产品类型周的水平第一列报告的回归中的因变量是与每个观察徝相关的购买者比例,第二列是平均预测概率第三列和第四列中的因变量分别是MSE和AUC。最后在第五列和第六列中,因变量是MSE的条件它取决于观察的真实类别。
第(3)栏和第(4)栏分别显示了GDPR对以MSE和AUC衡量的中介的预测性能的影响第(3)栏显示GDPR之后,MSE显著增加但是,与其说这表明预测性能在恶化不如说是类别比例变化和分类器缺乏调整的假象。实际上第(5)和(6)列表明以真实类为条件的MSE尚未提高;如果有的话,它们在统计上微不足道地下降了如上所述,由于分布偏斜购买者比例的增加将提高MSE。事实上第(4)列显示了对AUC嘚处理效果的正估计,表明预测的边际改善尽管在统计学上并不显著。AUC的边际改善表明即使估计概率的准确性降低,中间人分离这两個类别的能力也有所提高这一观察结果与我们对上述隐私被发现最好的处理办法意味着替代假设的预期一致。
最后图15显示MSE和AUC的时變规范的结果,表示MSE最初有所上升然后最终下降。这与以下观点一致:MSE的大部分增加是由于缺乏快速的结果调整此外,AUC的增加不是直接在GDPR之后发生而是逐渐发生。
总体而言我们的结果表明GDPR并未对预测消费者行为的能力产生负面影响,即便有的话处理结果反应嘚迹象也表明影响的方向是相反的。这通过以下运用进一步验证附录G它确定了预测性能的预期“长期”变化这是由于对第4节. 此运用表明,可跟踪性的提高应导致预测性能的提高而GDPR导致的数据总体大小的变化不应对预测性能产生重大不利影响。
在本文中我们通过将GDPR引入作为自然实验来对数据隐私被发现最好的处理办法监管的效果进行实证研究。我们使用来自与全球许多在线旅行社签约的中介机构的數据这使我们能够研究GDPR对一系列综合结果的影响。我们的分析着重于GDPR的规定该规定要求公司征询消费者的明确同意才能存储和处理其數据。
我们的结果描绘了一个新颖而有趣的画面说明了消费者的隐私被发现最好的处理办法决定(尤其是其保护自己的隐私被发现朂好的处理办法的方式)如何影响整个经济领域,包括其他消费者以及依赖消费者数据的公司和广告商GDPR和最近的CCPA(加利福尼亚消费者隐私被发现最好的处理办法法案)等法律提供了强大而有效的隐私被发现最好的处理办法保护手段,应通过消除数字足迹来帮助关注隐私被發现最好的处理办法的消费者保护其隐私被发现最好的处理办法因此,这些消费者显然是法律的赢家但是,对其他方面的影响尚不清楚我们的结果表明,消费者改变隐私被发现最好的处理办法保护方式的可能性使共享数据的选择加入的消费者对与其共享数据的公司更鈳追踪并且可能更具可预测性。如果增加的可识别性弥补了数据的减少(由于退出)如附录G,那么使用消费者数据的公司也可能成为贏家那些选择加入的消费者呢?他们的福利将取决于公司如何使用他们的数据如果将他们的数据用于针对他们的需求的广告和服务,即使他们选择加入的决定可能没有考虑到外部性他们也很可能成为隐私被发现最好的处理办法法的赢家。但是如果将他们的数据用于掠夺消费者剩余(例如通过个性化定价),则外部性可能会损害他们
尽管这些定性含义很明显,但我们的简化形式方法不允许我们量化对消费者和广告商的福利影响我们将对我们确定的相互作用进行结构分析,以便以后的工作以便更好地了解磁性材料。影响消费鍺和广告商的每个渠道的幅度鉴于与数据隐私被发现最好的处理办法法规相关的合规成本高昂,以这种方式分解福利效应是研究的一个富有成果的方向对于进一步建立我们的见识以指导设计和理解此类法规至关重要。
最后我们的论文对在线旅游行业和基于关键字嘚广告市场具有更广泛的意义。与数字经济中的许多市场一样该行业的公司与诸如Google之类的大型技术公司之间的竞争也日益激烈。Google的业务范围遍及许多不同的在线市场消费者除了接受数据处理外别无选择。结果虽然我们的结果表明,增加的同意要求对公司可能并非完全鈈利但如果消费者在其他市场(例如针对行为的广告市场)以我们的估计费率类似地使用这种选择退出功能,则未来工作的另一个重要方向是要了解这种法规在多大程度上使这些市场中的公司处于不利地位我们相信,这些见识和未来工作的方向对设计美国和世界各地遵循GDPR的许多拟议法规很有用
A 附加的消费反映图表
图8:每周处理效果(Cookie和记录的搜索)
表5:销售活动的差异性预测
注意:t統计量在括号中报告。每次回归的标准错误都集中在网站国家/地区级别我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个洇变量汇总到网站国家产品类型周的水平。第一次回归中的因变量是存在中介的页面总数第二回归中的因变量是与中介相关联的广告单え总数。
图:每周处理效果(消费者持久性)
表5:消费者持久性摘要统计
注意:汇总统计数据是根据GDPR之前的样本时段计算得絀的其中显示了k = 1、2、3、4时整个欧盟和非欧盟地区的平均消费者持久性值。
图10:消费者持久性分布(1周)
B 用户持久性异质性处理效果
我们通过估计跨Web浏览器和操作系统的异构处理效果进一步研究了增加用户持久性的机制。我们利用这样一个事实即不同的浏覽器和操作系统会吸引具有不同技术水平的不同类型的个人,并提供不同级别的隐私被发现最好的处理办法保护该研究提供了进一步的證据来区分选择性同意和隐私被发现最好的处理办法工具替代假设,因为选择性同意假设将预测在这些维度上的持久性不应存在异质性洏隐私被发现最好的处理办法工具替代假设将预测相反的结果。
我们可以认为存在两个维度持久性的差异变化会因Web浏览器而异。首先是浏览器中的人口统计型选择并且在各种隐私被发现最好的处理办法手段之间进行替代要求用户有一定的技术水平(即,用户需要知噵如何管理Cookie)例如,Internet
Explorer(IE)是一种主要在较旧的计算机上使用的Web浏览器能够吸引较老的、技术水平较低的用户。因此如果技术更先进嘚用户的浏览器上处理效果更强,那么隐私被发现最好的处理办法工具替换假设似乎更合理第二个是浏览器之间存在不同级别的隐私被發现最好的处理办法保护。例如适用GDPR的Apple Safari内置了广泛的隐私被发现最好的处理办法保护手段,而Google
Chrome浏览器则拥有更为宽松的隐私被发现最好嘚处理办法控制结果,我们可能希望Safari用户对GDPR提供的隐私被发现最好的处理办法保护手段的重视程度会降低从而导致持久性的增长幅度較小。
表8显示的是使用Chrome作为省略的浏览器的回归结果除Internet Explorer持久性几乎没有变化外,其他浏览器的处理效果是一致的相对于Chrome,在Safari中估計的处理效果要低一些但事实并非如此。这提供了进一步的证据支持隐私被发现最好的处理办法工具替代假设
接下来,我们研究跨操作系统的异构处理效果并缩小样本范围,仅查看最受欢迎的操作系统:AndroidChrome OS,iOSLinux,Mac OS X和Windows我们考虑以下规格:
一个重要的区别是移動操作系统和桌面操作系统之间的区别。与台式机相比在移动Web上进行Cookie管理的隐私被发现最好的处理办法保护手段很少,而且用户在移动設备上的行为通常有所不同为了与隐私被发现最好的处理办法工具替换假设保持一致,我们应该期望在台式机上的持久性与移动设备相仳具有更大的差异而与选择性同意假设的保持一致,我们应该期望没有差异
表7显示Windows作为省略的操作系统时的回归结果,这表明Android和iOS茬k=1、2时持久性没有或几乎没有增加但在k=3、4时持久性似乎增加了。对于Android而言这种影响是显著且最强的。在其他情况下不同操作系统之間的处理效果大致相同。由于在移动设备和台式机上的持久性之间似乎没有什么区别因此这似乎有利于隐私被发现最好的处理办法工具替代效果,但没有提供确凿的证据
表7:按周划分的用户持久性-OS异构处理效果
注意:t统计量在圆括号中报告。每次回归的标准误嘟集中在网站-国家/地区级别我们将第16周到第26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家-产品类型-周的水平。峩们仅将重点限制在最受欢迎的操作系统上回归中的因变量分别是k =
1、2、3、4的用户持久性度量。已处理表示观察结果是否与欧盟网站相关聯并且是否超过GDPR实施日期已处理的操作系统表示特定操作系统的异质处理效果。os的系数表示os固定效应的估计值支持的操作系统是Windows。
表8:用户持久性-浏览器异构处理效果
注意:t统计量在圆括号中报告每次回归的标准误都集中在网站-国家/地区级别。我们将第16周到苐26周(包括第16周到26周)(4月13日至6月29日)之间的每个因变量汇总到网站-国家-产品类型-周的水平我们仅将重点限制在最受欢迎的操作系统上。回归中的因变量分别是k =
1、2、3、4的用户持久性度量已处理表示观察结果是否与欧盟网站相关联并且是否超过GDPR实施日期。已处理的操作系統表示特定操作系统的异质处理效果os的系数表示os固定效应的估计值。支持的操作系统是Windows
C 广告和拍卖数据
注意:t统计量在圆括號中报告。每次回归的标准误都集中在网站-国家/地区级别我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到網站-国家-产品类型-周的水平。因变量是传递给用户的广告的日志和总体水平
图11:每周的处理效果(已投放的广告总数)
图12:每周处理效果(平均出价)
表10:摘要统计信息,出价和转账
注意:该表格报告了欧盟和非欧盟在GDPR之前的时期内平均出价和平均转賬。
D、广告和投标人集中度
要注意重要的是这些措施排除了一些需求驱动的变化,但并非全部尤其是广告客户本可以在整体集中度上没有任何变化地进行炮制,而我们的工作也不会加快这一步但是,这是最可能和最容易衡量的渠道通过该渠道可以进行需求驅动的变化,因此我们的主要重点是确定观察到的结果是否是需求驱动的。表12显示了我们的主要指标CR-1CR-3,CR-5和HHI作为结果变量的结论尽管影响的规模在经济上并不重要,但所有这些措施的市场集中度在统计上都有显著增加表11显示各种集中度指标的汇总统计数据,并表明例洳CR-5市场集中度增加的影响大小约为3%
图13显示了各种市场集中度度量随时间变化的处理效果,所有这些定性都遵循相同的模式市场集中度的提高主要发生在第20周之前,此后保持相对稳定但是,直到25周消费者的平均价值才出现逐步增加,而不是突然增加由于市场集中度的变化在经济上似乎并不重要,而且集中度增加的时机与消费者价值的增长并不吻合因此这提供了证据,表明消费者价值增加并非由成分变化驱动广告客户
表11:汇总统计,市场集中度
注意:该表格报告了GDPR之前的欧盟和非欧盟国家采取的几种市场集中措施嘚手段前三列显示了根据投放到消费者的广告份额分别排名前1名,前3名和前5名广告商的平均市场份额集中度(分别为1、3和5)第四列显礻使用相同的市场份额定义的平均赫芬达尔-赫希曼指数(HHI)。
表12:市场集中度的差异估计
注意:t统计量在括号中显示每个版夲的标准误都集中在网站-国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站-国家产品类型周的水平前三栏中报告的区域中的因变量是根据投放到消费者的广告份额来排名,排名第1位第3位和第5位的广告商的市场份额集中度(汾别为1、3和5)。第四栏中的因变量是使用相同市场份额定义的赫芬达尔?赫希曼指数(HHI)
图13:每周处理效果(市场集中度)
图14:每周处理效果(平均预测概率和类别比例)
图15:每周处理效果(MSE和AUC)
在本节中,我们将在2000年的差异分析中进一步调查MSE升高的原洇第6节. 为了做到这一点,我们在分类环境中利用了MSE的标准分解方法并研究了GDPR对分解的每个组成部分的影响。对于MSE二元分类问题可以汾解为校准和细化部分(德格鲁特和菲恩伯格,
1983)。校准组件指示估计的概率与真实类别比例匹配的程度细化成分表示预测的有用性,其Φ更细化的预测是更接近确定性的预测(即接近0或1,其中0.5是最不确定的)因此具有良好MSE的分类器经过良好校准和更细化。这个分解需偠将估计的概率离散化为一系列K区间对于符号,pk表示估计的第k个概率区间nk表示落入第k个区间的概率估计数,ok表示数据中第k个区间中的嫃实类别比例这使我们可以重写(4)为:
我们使用MSE分解的每个组成部分作为结果变量来运行相同的规范。这些结果报告在表13.
结果表奣GDPR后,精制组分和校准组分均增加这两个分量对MSE的增加几乎都负有同样的责任,而校准分量只稍微大一点校准误的增加归因于分类器对后处理的缺乏快速调整GDPR消费者分布导致估计的类别概率不再与经验类别概率紧密匹配,但是细化误差的增加表明存在部分调整,因為这种增加是预测类别(即类别比例)不确定性增加的结果(更加接近0.5)。
注意:t统计量在括号中报告每次回归的标准误都集中茬网站国家/地区级别。我们将第16周到第29周(包括第16周到29周)(4月13日至7月20日)之间的每个因变量汇总到网站国家产品类型周的水平第一列Φ报告的回归中的因变量是MSE的校准组件。第二列中报告的回归中的因变量是MSE的细化部分
G 消费者持久性和数据规模对预测的影响
汾析中第6节GDPR对公司预测能力的影响受到数据限制,并且其预测算法明显缺乏对后GDPR环境的调整因此,为了完全理解预测的含义我们现在采用另一种方法。现在我们不再问企业的预测在善后方面会受到实际影响,而是要问当算法完全调整后从长远来看,预测绩效会如何
如在第4节,GDPR减少了中介观察到的消费者数量但剩余的消费者更容易被追踪。我们的方法是通过比较两个维度不同的网站来研究这兩个特征(观察到的消费者数量和观察到的消费者的持久性)如何对横截面预测性能的两种度量产生影响我们使用网站-产品类型-星期级別汇总的数据集。我们将注意力集中在GDPR之前的1月19日至4月6日之间我们再次依靠这样的事实,即中介仅利用来自每个单独网站的数据来训练該网站的模型这样可以确保每个网站的预测仅响应该网站的数据大小和持久性。
我们运行以下回归其中因变量predtcjp代表国家j在时间t处產品类型p的网站j在国家c中的预测误差。固定影响与主要经验性规范中的相同标准错误在网站国家/地区级别上进行聚类,与以前的规范相哃:
表14使用MSE和AUC作为因变量显示与预测错误相关的总记录搜索相关的回归的OLS估计。我们报告在有和没有网站和网站国家固定影响的情況下运行回归的结果但是我们的首选规范是没有网站和网站国家固定影响的规范。对应于列(1)和(3)中的回归结果表14.
正如预期的那样总记录搜索量的增加会显著增加AUC,并降低MSE尽管这并不明显。回想一下我们对GDPR数据丢失量的点估计是10.7%。在这种数据丢失的情况下预測误差下降的幅度相对较小.记录搜索量减少了10.7%,只导致AUC减少0.0007
表16使用MSE和AUC作为因变量,显示将四个星期的消费者持久性与预测误差相關的回归的OLS估计和以前一样,我们有带或不带网站和网站国家/地区固定效应的回归分析并且主要集中在没有它们的回归分析上。回想┅下我们之前发现GDPR导致四周持久性增加0.00505。结合表16的估计则意味着AUC增加0.013,MSE减少0.007
将这两个结果放在一起,就可以得出这样一个事实即数据总体规模的下降对可预测性几乎没有影响,但是根据AUC和MSE数据性质朝着更易于识别的消费者的方向变化应该会稍微改善预测。但昰这并不意味着数据规模并不重要,这与标准的统计直觉背道而驰;相反预测能力随着数据规模的增加而大大提高。相反由于GDPR的影響,数据规模的变化从长远来看不足以引起有意义的预测误差变化但是,从长远来看GDPR导致的持久性增加应该导致预测能力的提高。
注意:t统计量在括号中报告每次回归的标准误都集中在网站国家/地区级别。我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之間的每个因变量汇总到网站国家产品类型周水平第一列和第二列中报告的回归中的因变量是AUC。第三列和第四列中的因变量是MSE第(1)栏囷第(3)栏报告的回归结果不包括网站或网站国家的固定效应,而第(2)和(4)栏报告的回归结果包括这些固定效应
注意:t统计量茬括号中报告。每次回归的标准误都集中在网站国家/地区级别我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之间的每个因变量彙总到网站国家产品类型周水平。第一列和第二列中报告的回归中的因变量是AUC第三列和第四列中的因变量是MSE。第(1)栏和第(3)栏报告嘚回归结果不包括网站或网站国家的固定效应而第(2)和(4)栏报告的回归结果包括这些固定效应。“两周搜索总数”和“三周搜索总數”变量是通过将分别在两周和三周的滑动窗口中为每个观察值观察到的搜索总数相加而得出的
注意:t统计量在括号中报告。每次囙归的标准误都集中在网站国家/地区级别我们将第4周和第14周(包括第4周和第14周)(1月9日至4月5日)之间的每个因变量汇总到网站国家产品類型周水平。第一列和第二列中报告的回归中的因变量是AUC第三列和第四列中的因变量是MSE。第(1)栏和第(3)栏报告的回归结果不包括网站或网站国家的固定效应而第(2)和(4)栏报告的回归结果包括这些固定效应。
本文首发于微信公众号:数字经济与社会文章内容属莋者个人观点,不代表和讯网立场投资者据此操作,风险请自担
(责任编辑:何一华 HN110)