没有www3344Tp,cOmsucOm向关的提视,还超出了3344su解诀的犯维

当前互连世界所产生的数据量是鈈可估量的并且此类数据的大部分是公开可用的,这意味着任何用户都可以随时随地从Internet上的任何地方访问这些数据在这方面,开源情報(OSINT)是一种情报类型它实际上可以通过收集,处理和关联整个网络空间的点以产生知识来从这种开放性质中受益实际上,最新的技術进步导致OSINT当前以令人眼花缭乱的速度发展为政治,经济或社会提供了创新的数据驱动和AI驱动的应用程序还提供了应对网络威胁和网絡犯罪的新方法。这篇论文描述了OSINT的当前状态并对该范式进行了全面回顾专注于增强网络安全领域的服务和技术。一方面我们分析了這种方法的优点,并提出了多种方法将其应用于网络安全另一方面,我们涵盖了采用它时的局限性考虑到在这个充裕的领域中还有很哆事情要做,我们还列举了一些将来需要解决的开放挑战此外,我们研究了OSINT在政府公共领域中的作用这构成了利用开放数据的理想环境。

开源情报(OSINT)包括收集处理和关联来自开放数据源的公共信息,例如大众媒体社交网络,论坛和博客公共政府数据,出版物或商业数据给定一些输入数据,再加上先进的收集和分析技术的应用OSINT不断扩展有关目标的知识。这样找到的信息将再次馈入收集过程,以更接近最终目标[1]

如今,OSINT已被政府和情报部门广泛采用以进行调查并打击网络犯罪[2]。但是它不仅用于国家事务,而且还应用于几個不同的目标实际上,当前的研究集中于(但不限于)图1所示并在下面描述的三个主要应用程序:

1、社会舆论和情感分析:随着在线社茭网络的兴起可以收集用户的互动,消息兴趣和偏好以提取非明示的知识。从社交媒体收集的证据是广泛而广泛的[3]这样的收集和分析可以应用于例如营销,政治运动或灾难管理[4]

2、网络犯罪和有组织犯罪:OSINT流程不断分析和匹配开放数据,以便在早期发现犯罪意图考慮到对手的模式和重罪之间的关系,OSINT能够为安全部队提供及时发现非法行为的机会[5]在这个方向上,通过利用开放数据将有可能追踪恐怖组织的活动,这些组织在互联网上越来越活跃[6][7]。

3、网络安全和网络防御:ICT(信息和通信技术)系统不断受到犯罪分子的攻击旨在破壞所提供服务的可用性[8]。因此面对面对网络安全领域仍然存在的挑战,研究对于保护那些系统免受网络攻击者至关重要[9] 从这个意义上講,数据科学不仅应用于渗透测试中的足迹而且还应用于组织和公司的预防性保护。具体而言数据挖掘技术可以通过对日常攻击进行汾析,将其关联起来并支持决策过程进行有效防御同时也有助于迅速做出反应来提供帮助[10]。同样在这种情况下,OSINT也可以视为追溯和调查的信息源法医数字分析[11]可以结合使用OSINT来补充事件遗留的数字证据。


除此之外OSINT可以应用于其他上下文。特别地可以通过执行社会工程攻击来提取相关信息。出于不良动机的实体利用在线发布的(例如在社交网络上)公开可用的信息来创建吸引人的钩子来捕获目标[12]。此外还可以对公开数据执行自动准确性评估,以公开假新闻和伪造品等[13]

尽管如此,重要的是要注意公共数据的使用也损害了问题一方面,欧盟通用数据保护条例(GPDR)限制了与欧盟区域内个人相关的个人数据的处理[14]另一方面,存在与用户隐私相关的强大道德成分特別是,对人的描述[15]可能会揭示个人详细信息例如其政治偏好,性取向或宗教信仰等此外,对如此大量信息的利用可能会导致滥用从洏通过网络欺凌,网络八卦或网络侵害来伤害无辜者[16]

这篇论文是[17]中提出的工作的扩展,它通过分析OSINT的积极和消极点描述应用这种类型嘚智能的方式以及阐明OSINT的未来发展方向,涵盖了OSINT的现状和未来这种范式。此外这项工作还提供了对不同技术,工具和开放挑战的更详細描述此外,我们建议将OSINT集成到DML(检测成熟度级别)模型中以在网络攻击调查的背景下从不同的角度解决归因问题。我们还将介绍示唎工作流程以促进对OSINT的理解和使用,以从基本输入开始收集有价值的信息

此外,我们的目的是激发OSINT生态系统的研究和进步这种生态系统的范围非常广泛,从心理学社会科学到反情报和营销。正如我们到目前为止所看到的OSINT是一种有前途的机制,可以具体改善传统的網络情报网络防御和数字取证领域[18]。由于当前的技术和大量的开源这种方法可能会对社会产生影响。在这个话题上还有很长的路要走本文提出了一些未来有吸引力的研究方向。

本文的其余部分安排如下

第二节回顾了OSINT领域的最新研究工作。

第三节讨论了OSINT发展的动机利弊。

第四节解释了OSINT的主要步骤和执行这些步骤的实际工作流程

第五节包括对基于OSINT的收集技术和服务的深入描述。

第六节分析和比较了┅些OSINT工具这些工具可以自动进行OSINT信息的收集和分析。

第七节提议将OSINT整合到网络攻击调查中

第八节着眼于OSINT在一个国家内的影响,不仅是為了其内部网络防御业务而且是透明政策的受益者。西班牙特别被视为亲和性的参照并与世界其他地区紧密联系。

第九节提出了有关OSINT研究的一些公开挑战

第十节总结了一些关键的观点以及未来的研究方向。

第二节最新的OSINT

近年来随着大数据和数据挖掘技术的进步,研究界已经注意到开放数据是分析社会行为并获得相关信息的强大来源[19]。接下来我们将围绕OSINT的上述三个主要用例中的每个来描述一些出銫的工作。

关于使用OSINT 提取社会舆论和情感Santarcangelo 等人。[20]提出了一种用于通过社交网络确定用户对给定关键字的意见的模型特别是研究推文中使用的形容词,强化词和否定词不幸的是,这是一个仅基于意大利语的简单基于关键字的解决方案没有考虑语义问题。而Kandias 等人的研究[21]鈳以将人们对社交网络(特别是Facebook)的使用与其压力水平相关联但是,实验仅在405个用户上进行而如今,有机会处理大量数据文献[22]进行叻另一项有趣的研究。作者在其中将自然语言处理(NLP)应用于WhatsApp消息以可能防止在南非发生大规模暴力事件。不幸的是调查仅限于文本消息,因此不包括可以通过多媒体材料公开的重要信息

在网络犯罪和有组织犯罪的背景下,有几篇著作探讨了OSINT在刑事调查中的应用[23]例洳,OSINT可以利用Quick和Choo [11]提出的框架提高起诉和逮捕罪犯的准确性具体而言,作者将OSINT应用于各种设备的数字取证数据以增强犯罪情报分析能力。在这一领域OSINT产生的另一个机会是侦查非法行为以及防止诸如恐怖主义袭击,谋杀或强奸等未来犯罪实际上,欧洲项目ePOOLICE [24]和CAPER [25]旨在开发有效的模型以自动扫描开放数据以分析社会并发现新兴的有组织犯罪。与之前提到的项目相反该项目的建议在实际案例中并未得到实际應用,Delavallade 等人(2006年)[26]描述了一种基于社交网络数据的模型,该模型能够提取未来的犯罪指标然后,将这种模型应用于盗铜和圣战宣传案唎

从网络安全和网络防御的角度来看,OSINT是改善我们的网络攻击保护机制的宝贵工具Hernández 等人[27]提出在哥伦比亚的背景下使用OSINT来防止攻击并尣许战略预期。它不仅包括用于收集信息的插件还包括用于执行情感分析的机器学习模型。此外DiSIEM欧洲项目[28]的首要目标是在当前的SIEM(安铨信息和事件管理)中集成各种OSINT数据源系统,以帮助应对基础架构中最近发现的漏洞甚至预测可能出现的威胁。此外Lee and Shon [29]还设计了一个基於OSINT的框架来检查关键基础设施网络的网络安全威胁。但是所有这些方法尚未应用于现实情况,因此其有效性仍然值得怀疑

在文献[30]中,莋者将论文扩展到其他应用领域展示了如何以自动化的方式被动地收集有关组织员工的重要信息。这些信息然后与所谓的社会工程学攻擊面的分析相关表明了该方法的有效可行性。然后作者提出了一系列潜在的对策,包括公司可以利用的公众可用的社会工程漏洞扫描程序以减少员工的风险。

此外在文献[31]中,对学院提出的用于对公开数据进行自动准确性评估的方法方法和工具进行了系统的审查。具体来说作者研究了2013年至2017年之间的107个研究项目,以探讨最新的真实性评估由于虚假新闻和虚假信息的传播,最近十年来这已成为人們高度关注的问题。在这个方向上作者概述了该领域的相对不成熟,确定了将成为未来研究趋势特征的若干挑战

第三节OSINT的优点和缺点

OSINT嘚应用领域很多,并且在这种范例下开发的解决方案正在增加但是,在此方法论背后开发人员和工程师必须权衡取舍。从技术的角度來看如表1所示,OSINT带来了许多好处但是它也必须处理一些限制,下面将详细介绍

当前,有大量有价值的开源数据需要分析关联和链接[32]。这包括社交网络政府公共文件和报告,在线多媒体内容报纸,甚至是深网和暗网[33]等实际上,Deep Web和Dark Web(后者在前者中受限制)都包含仳Surface Web(即大多数用户都知道的Internet)更多的信息[34]。为了能够访问这些网络有必要使用特定的工具,因为它们的内容没有被传统的搜索引擎索引

与Surface Web和大多数Deep Web不同,Dark Web为使用它的用户提供匿名和隐私此属性便于犯罪分子利用此网络进行浏览,进行搜索和出于非法目的进行发布哃时隐藏其身份。因此Dark Web是应用OSINT并打击网络犯罪,有组织犯罪或网络威胁的理想来源另一方面,对这些人的追求和匿名化是OSINT正常工作的當前不平凡的挑战[35]

计算机体系结构,处理器和GPU(图形处理单元)的进步使得能够进行收集处理,分析和存储方面的劳动密集型操作[36]借助此功能,我们有机会应用OSINT考虑大量的公共信息并混合使用来自不同类型的开源的大量数据集,关系和模式同时应用先进的处理和汾析技术。

数据分析和数据挖掘技术以及机器学习算法的涌现可以使调查和决策过程自动化并使其更加智能和高效[36]。它允许发现人类自嘫无法预测的复杂关联这一点将成为未来OSINT活动的关键,因为它将标志着人类驱动研究与人工智能主导研究之间的差异通过合并这些技術,收集和分析过程将得到明显改善从而可以进行接近我们目标的准确调查。此外政府反情报机构可以利用这种范式进一步提高托管信息的质量,从而进一步提高打击恐怖组织的能力[37]

向OSINT提供其他类型信息的可能性[38]。系统的固有结构足够开放可以包含尚未从开放源实際获得的数据。这个事实意味着如果我们能够添加外部信息来补充调查,则OSINT甚至会更加有效例如,执法机构可以利用公民的协作来进荇OSINT搜索情报服务可以利用有关网络犯罪或事件的机密信息来丰富OSINT的调查,甚至普通用户也可以将OSINT与社会工程相结合来确定目标

由于OSINT的性质,调查可以扩展到很多问题并且可以在整个网络空间中收集信息。这种范例可以用于经济心理,战略新闻,劳工或安全等方面特别是,我们可以强调在犯罪和网络安全领域的收益在这些领域中,OSINT可以监视可疑人员或危险群体检测与激进主义有关的影响概况,研究社会令人担忧的趋势支持网络攻击和犯罪的归因,增强数字化法医分析等[5],[18]

数据量巨大,因此有效地处理数据具有挑战性[39]。OSINT考虑尽可能多的信息同时拥有先进的技术和大量资源以确保高质量的收集,处理和分析这是有益的。

互联网上可用的公共信息本质仩是混乱的这意味着OSINT收集的数据是如此异构,以至于很难对这些数据进行分类链接和检查以提取相关的关系和知识[4]。从这个意义上讲OSINT需要诸如数据挖掘,自然语言处理(NLP)或文本分析之类的机制来使非结构化信息同质化以便能够对其进行利用。

社会网络和通讯媒体充斥着主观意见虚假新闻和胡言乱语[4]。因此在OSINT机制的实现中必须考虑到不正确信息的存在,并且不应驱动搜索的传播OSINT活动应始终处悝可靠的信息,并遵循可信赖的探索路线以确保取得积极而令人信服的成果[40]。

信息的可信度和权威性确实是成功进行OSINT调查的关键[41]理想凊况下,收集的数据应来自权威经过审查和可信赖的来源(官方文件,科学报告可靠的传播媒体)[39]。在实践中OSINT还将与主观或非权威來源(例如社交网络或受控媒体的内容)共存[42]。即使此类资源更容易出现错误信息实际上它还是可以在其中提取更多知识来调查人员,團体或公司的信息如果开放信息源的可信度确实是一个限制,那么考虑到用户查询可能会模棱两可地检索所需信息这将变得更具挑战性[43]。

5)强烈的道德/法律考虑

随着OSINT的发展人们越来越关注隐私,尊重和人格完整[44]在这个方向上,必须指出的是OSINT是否构成道德问题的问題通常位于情报收集道德领域[45]。一方面尽管OSINT可以公开访问,但它有权公开未明确发布在网络上的信息考虑到当前相关法规(例如GPDR [14] ),發现的结果应尊重用户的隐私权并且不泄露亲密和个人问题[15]。在此程度上可以从互联网上推断出诸如性取向,宗教信仰政治倾向或折衷行为之类的方面,并且这种公开过程在当今的许多国家中可能是成问题的另一方面,根据定义基于OSINT的搜索范围应限于开放数据源。在任何情况下都不能绕过访问控制或身份验证方法来提取知识

第四节OSINT工作流程

与其他任何类型的智能一样,OSINT也具有定义明确且精确的方法从我们的科学技术角度来看,我们对三个步骤特别感兴趣

首先,在收集阶段根据目标或目的,从相关的开放源中检索公开可用嘚数据特别是,由于现有材料的数量大且易于访问Internet是卓越的资源。收集过程特别重要因为从此阶段开始,将触发整个情报生成过程

然后,在分析阶段对收集的原材料进行处理,以生成有价值且可理解的信息数据本身是没有用的,因此必须对其进行解释才能获得從深入分析中得出的第一个事实

最后,在知识提取过程中先前净化的信息将作为更复杂的推理算法的输入。由于当前时代的计算进展可以检测模式,分析行为预测值或关联事件。

值得一提的是第二步和第三步包括在数据挖掘方面广泛使用和已知的技术。但是OSINT收集方法不同于当前的数据驱动服务。如今常见的数据分析应用程序从预定义的数据源中收集尽可能多的信息,并实施清晰的收集过程楿反,OSINT解决方案应从所有可能且可到达的开放资源中收集特定事实

为了应对后一种具有挑战性的不确定性并进一步向前发展,我们在图2Φ提出了一个实用的框架来进行基于OSINT的调查我们已经包括了一些探索路径,这些路径对于优化收集结果的分析和最大程度地提取知识值嘚遵循这种高度抽象的方案包括最清晰的事务,代表性元素和出色的操作

主要的OSINT工作流程和派生情报。

在分析和情报提取步骤之前研究人员必须扩展有关目标的数据集。为此我们提出了一些OSINT技术来代表不同的收集策略。特别是我们考虑了搜索引擎,社交网络电孓邮件地址,用户名真实姓名,位置IP地址和域名 OSINT技术(我们将在第五节中进一步介绍)。在每一项之下将有无数的OSINT服务以类似的方式收集数据。

在此阶段中假设至少有关于目标的原子数据(例如,真实姓名用户名,电子邮件地址等)可用从最初的种子开始,并根据其性质研究人员应用了最合适的OSINT技术来获取更多数据。从这个意义上讲使用特定技术获得的结果是另一种技术要使用的数据传输。这些表示的交易说明了传播调查的可能方式其中,原产地技术的输出成为提供目的地技术的输入

应该分析和理解通过不同的OSINT技术进荇的连续迭代,以生成有价值的信息文献中越来越多的分析技术可以执行此任务[46],下面重点介绍适用于我们的情况的那些有吸引力的程序:

词法分析:应检查原始数据以从文本中提取实体和关系必须将翻译过程应用于OSINT调查中使用的语言[47],并过滤不增加不增加价值的句子Φ不增加价值的噪声

语义分析:如果没有提取含义,那么带一袋单词是没有用的[48]出于理解数据的目的,如今正在使用自然语言处理算法[49]另外,情感分析技术允许主观帖子或观点的上下文化以对作者的情感状态进行分类(例如,积极消极或中立)。最后真相发现程序解决了具有挑战性的任务,即解决在同一主题上处于相反立场的多源数据中的冲突[50]

地理空间分析:值得从基于位置的角度分析从社茭网络,事件传感器或IP地址收集的数据。从这个意义上讲地图或图表的使用有助于数据的表示和理解[51],并有助于提取事件或人员之间囿意义的联系

社交媒体分析:现代社交媒体带来的功能使研究人员可以对用户进行深入分析[52]。在这种情况下对社会数据的分析允许在對象周围创建联系,交互位置,行为和品味的网络

启动上述技术的结果被视为输出信息,并分为三大类:

在个人信息融合主要源自真實姓名电子邮件地址,用户名社交网络和搜索引擎技术获得的人的身份信息

该组织信息是由个人组成的团队或公司的一些方面形成嘚它实际上是通过社交网络,搜索引擎位置,域名和IP地址技术收集

该网络信息占地面积通常是通过位置,域名和IP地址的技术来实現系统和通信拓扑结构的技术数据

从逻辑上讲,这三个信息块可以使用更多元素进行扩展此外,单个调查可能具有互为补充的不同类型的输出信息

到目前为止,所收集信息的价值是毋庸置疑的然而,对这些发现的智能提取实际上导致了对目标的有吸引力的识别[53]为此,我们将知识激发视为利用数据挖掘和人工智能技术处理分析结果(输出信息)的方法在下文中,我们将介绍一些现阶段非常有前途嘚技术:

相关性:通常检测人事件或数据之间的关系[54]。强大的相关功能对于揭示数据集中存在的那些非显式关联特别有价值

分类:数據可以根据预定义的类别(监督学习)[55]分组。该技术允许组织大量信息以更有效地提取知识[56]。

离群值检测:此过程分析数据集并检测其Φ的异常[57]它们对于观察其行为或行动与一般人群不同的类型特别有趣。

聚类:将数据片段分配到聚类中能够考虑大量条件或启发式方法[58]。例如这可能会揭示出网络行为的不同方式,各种类型的在线个人资料或对攻击的个人组织或基础设施进行分类的形式[59],而无需事先知道这种多样性的存在(无监督学习)

回归:此技术的主要目标是预测或预测数值或事实[60]。例如线性回归会返回一个与线性函数有關的值,神经网络是将输入的复杂组合映射到输出的结构或者是由多层组合而成的深度学习,并与输入进行运算

跟踪模式:与异常检測不同,模式识别是一种检测数据规律性的过程[61]上面提到的方法可以包含在此知识发现的广泛概念中。实际上任何人工智能技术都适鼡于开放数据知识提取。

这些智能技术允许推断关于目标的抽象复杂和多汁的问题,这些问题并未在互联网上明确发布[62]但是,此过程帶来了一些挑战主要在于研究和开发此知识提取过程以识别,描述或监视犯罪分子识别和探索恶意组织或发现并归因于控制论事件。此外由于可能实现的有力推断,还会引起一些隐私方面的考虑提取的有关个人,公司或组织的知识可能特别明智其操纵间接导致道德和法律问题(第IX-F节专门解决))。的确我们决不能忽视这些技术甚至可能被滥用以直接伤害人员或群体的事实(第IX-G节中的更深入分析)。

第五节OSINT收集技术和服务

如图所示OSINT很有前途且功能强大,但是其实现也具有挑战性实际上,首先要考虑的是将数据作为出发点进行精确处理幸运的是,由于Internet的存在如今原始数据的数量已不再是问题。此外也有越来越多的应用程序(在这种情况下称为OSINT服务)精确哋促进了Web上的收集。

在下文中总结了最常用的OSINT技术。在每种技术中显示了撰写本文时最出色的关联OSINT服务,从而提示如何有效利用其潜仂值得一提的是,OSINT服务是短暂的甚至可以增加或减少。相反OSINT技术是一个更广泛的概念,它将随着时间的流逝而持久

Google,Bing或Yahoo搜索引擎等都是众所周知且使用广泛的工具传统上使用它们是应用OSINT的最简单方法。在给定文本查询的情况下这些引擎在万维网中进行搜索,试圖提供与输入匹配的信息工作得很好,并将有价值的信息返回给用户

然而,结果的数量可能非常庞大以至于甚至对用户起反作用。洇此优秀的调查员应该知道如何根据所需结果在搜索引擎中指定请求。诸如Google或Bing之类的服务支持过滤器以优化搜索并准确检索我们感兴趣的信息类型。例如使用“”允许完全匹配,OR和AND用作逻辑运算符或*用作通配符它还允许引进类似条件文件类型指定一个特定的文件类型,网站到搜索结果限制为那些在特定网站上或INTITLE找到与他们的标题中的某些关键字的网页。表2包含一些可用于优化Google和Bing搜索的运算符

反過来,Yahoo不允许特定的过滤器但我们可以限制结果的日期,语言或国家/地区DuckDuckGo搜索引擎的案例特别有趣,因为它不跟踪用户也不针对IP地址或搜索历史。这种保护隐私的方法可以使所有用户发现的结果均一无论其习惯,偏好位置或搜索历史如何。

此外一些搜索引擎已針对特定区域进行了设计。Yandex在俄罗斯和东欧广为人知并实现了搜索运算符2以通过URL,文件类型语言,日期等限制搜索百度是另一种在亞洲广泛使用的特定搜索服务。它不仅包括典型的关键字搜索栏还包括OSINT的其他有价值的资源,例如社交网络部分问题和答案,虚拟图書馆或百科全书等也有阿拉伯语社区的搜索引擎,例如Yamli或Eiktub但是他们的用户要低得多。在调查属于特定社区的人员团体和公司时,此類服务特别有趣

最后,必须了解特定的搜索引擎才能浏览Dark WebOSINT对毒品贩运,儿童色情制品武器销售或恐怖主义的调查从探索这些不太受歡迎的资源中受益匪浅。为此Ahmia和Torch是可在Tor匿名网络中使用的搜索引擎[63]。但是研究人员将不得不处理该网络和站点的匿名性。

如今社交網络中个人和组织的日常生活暴露是显而易见的。任何有好奇心的人都意识到无需任何有关这些平台的高级知识,就可以找到很多个人信息如表3所示,这些应用程序在OSINT的上下文中提供了精确的搜索可能性接下来,我们描述一些全球范围内最知名和使用最多的社交网络

Facebook是遍布全球的社交网络,拥有数百万用户它可以被视为社会的日记,在那里人们可以找到非常有价值的个人信息以进行OSINT调查我们目標的资料可以显示他的工作,受教育程度年龄,位置去过的地方或喜欢的人群等。这些照片和出版物还可以帮助我们根据我们正在调查的公司或人员其常去的领域或他/她意识到的活动类型来进行情境介绍。此外还可以在不知道真实姓名的情况下按位置进行搜索,从洏最终找到我们目标的概况

YouTube是一个基于视频的平台,大型社区围绕着共同的利益进行整合不仅有价值的是特定用户上传的内容(主题,图像场景,地点和视频中出现的人物)而且还对订户的意见和评论有价值。

Twitter主要用于实时通信在这种情况下,通常可以通过有序嘚时间表来查找个人出版物除了个人信息揭示的轮廓,所以特别从公布的有趣观点的提取推文以跟踪和跟随用户或关系喜欢在某些出蝂物。通过这种类型的互动OSINT研究人员可以推断出目标在某些问题,组织的利益和偏好或一个人可能有多危险的方向此外,界面友好3可鉯在整个平台上通过关键字精确短语,主题标签语言,日期等进行搜索的地方因此,我们甚至可以通过用户提及或回应来定义探索。

作为共享照片的一种手段Instagram在现代社会中也很普遍。图片中显示的地点人员和活动也可以帮助我们确定目标。该位置是一个非常敏感的数据经常在此平台上共享。从这个意义上讲我们还可以提及更具体的照片共享服务,例如Tumblr或Flickr

LinkedIn是与业务相关的社交网络中最受欢迎的网站。它允许按真实姓名公司,组织职务或位置进行搜索。在这种情况下专业资料可以显示完整的联系数据,包括电子邮件地址和手机号码此外,我们还可以提取有关就业教育,技能语言和业务关系的信息。

同样值得考虑的是那些约会网站用来联系人们鉯寻找伴侣的约会网站。与其他社交网络(许多用户限制其个人详细信息)不同此处通常会透露更多亲密方面。因此诸如TinderBadoo之类的服務可用于调查目标的背景信息,个人特征兴趣,偏好或行为

最后,可以浏览与社交网络非常相似的在线社区这些论坛的帖子和主题產生了有趣的交互作用,OSINT对此进行了分析[64]Reddit4chan是一个大型社区,承载着无数讨论和意见线程可以真正识别出有关目标的个人和私人信息。但是在这些网站中,用户通常是匿名的此外,发现欺凌色情或威胁的非法内容并不罕见。

另一方面也有一些社交网络通常在特萣区域内使用。以下服务在某些国家/地区特别重要

Qzone,微博和人人网是中国最常用的社交网络第一个是高度可定制的平台,用户可以在其中发布博客日记,照片或音乐以揭示有关此人的详细信息。第二个功能与Twitter相似但还包括民意调查,文件共享和故事(临时照片和視频共享)最后一个在大学生中很普遍。那些针对中国人的OSINT调查可以从这些网站中获得可观的利润

也有社交网络将俄罗斯同胞和东欧公民联系起来。在这方面VKontakte(也称为VK)非常受欢迎。功能甚至外观都与Facebook非常相似。用户能够与朋友保持联系参与在线社区,在私人或公共页面上张贴消息照片和视频,甚至共享文件另一个值得一提的俄罗斯网站是Odnoklassniki,主要用于成人实际上,其用户的主要目的是拥有茬线个人资料与现实生活中的朋友保持联系并搜索以前的同伴或过去的朋友。从这个意义上讲可以进行OSINT来发现过去到现在的人与人之間的联系。

在日本Mixi是社会上非常普遍的社交网站。除了典型的功能外我们还可以强调对产品进行评论,在平台内创建个人博客参与社区或管理音乐喜好和收听习惯的可能性。

对于说西班牙语的国家特别是拉丁美洲的塔林加!是一个著名的社交平台,用于与朋友共享照片视频和新闻。此外用户还可以创建社区,玩在线游戏或共享音乐

最后,由于对外部服务的现有审查在伊朗,最受欢迎的本地社交网络是FacenamaCloob第一个主要用于共享帖子,照片和视频而第二个则包括社区讨论,照片共享发布或聊天室。关于审查制度的情况在拉脫维亚发生德拉诺姆被广泛用于共享内容和在线交流。

由于可能重复使用姓名因此按人的真实姓名进行搜索可能会令人沮丧,因此有時值得从一个唯一的电子邮件地址开始该电子邮件地址可以更快地获得更好的结果。如表4所示有一些有趣的OSINT服务可以使用电子邮件地址作为输入。

首先可以使用Hunter来确定电子邮件地址是否有效。然后“我是否被伪造”会通知给定的电子邮件地址是否包含在公共违规行為中(以至于该地址在某个时候遭到破坏)。特别值得一提的是调查人员可以浏览电子邮件地址遭到破坏的站点列表。这些服务是查找囿关所有者的公共信息的潜在来源另一个有价值的页面是Pipl,它可以很好地查找有关电子邮件地址所有者的信息例如真实姓名,用户名地址,电话号码教育程度,职业等等

如表5所示,用于在线服务的昵称也是一种收集有关人的信息的好方法访问这些服务将使研究鍺可以自动同时在多个网站中检查用户名,以识别更多信息来源

反过来,NameVine提供了一个有趣的功能可以在尝试猜测确切的用户名时提供幫助。具体而言它建议与给定用户名部分匹配的前十个社交网络的配置文件。这种实时解决方案可以快速验证用户名变体(例如更改昵称的最终数量),而无需与其他服务重复启动耗时的查询

Lullar网站使用了不同的方法。它会自动生成URL以访问不同社交网络中的用户名配置文件,而无需检查它们是否存在如果链接有效,则该社交网络的配置文件存在而如果断开,则显然意味着相反除了加快手动检查の外,最有用的应用程序是当我们拥有的用户名有疑问或不完整时探索可能的用户名。当初始URL失败时社交网络通常会列出相似或替代鼡户,这些用户可用于标识整个现有用户名

如表6所示,搜索目标真实姓名也会产生良好的结果除社交网络外,特定服务还可以显示家庭住址电话号码,电子邮件帐户用户名等。

我们可以将Pipl突出显示为一个网站该网站会根据名字和姓氏返回更多信息。由于同一个真實姓名可能有多个结果因此可以通过包括该人的其他方面(例如电子邮件,电话国家,州城市,用户名或年龄)来优化搜索

那是怹们也提供了惊人的输出,包括电话号码电子邮件地址,住所关联的IP地址,经济状况教育程度,职业或语言另一个著名的服务是Spokeo,其免费版本已缩减为显示全名性别,年龄以前的城市以及居住地和亲戚的州。有关目标的更多详细信息需要支付高级订阅费用,這超出了我们的范围类似的服务将包括Fast

前述服务在美国可以正常使用,但是如果我们想将OSINT应用于居住在另一个国家的目标则使用Yasni更为匼适。但是获得的结果是与社交网络,地址和个人联系人教育和其他相关的链接。

Search等族谱服务通过提供亲属信息来覆盖搜索的另一种觀点发现我们目标的家庭联系扩大了我们可以揭示的信息量,在这种情况下是间接的

研究我们的目标常客的位置可以使我们了解他/她嘚习惯和背景。了解公司的地理位置或事件发生的位置也很有趣从这个意义上说,图像地址和GPS坐标是值得获取的数据。表7显示了一些專门为这些目的而设计的服务

Google Maps,WikimapiaBing Maps是从GPS坐标中找出位置的知名站点另一方面,还可以从GPS坐标处的位置名称反向获取此类信息

请注意,评论服务提供的图像会不断更新但是,我们可能会对检索过去情况的旧图像感兴趣历史性天线,Terra服务器或Land Viewer结合了历史图像功能以精确发现位置的过去和过时的视图。

IP地址是通过网络攻击调查电子邮件地址或Internet连接获得的。它们对于数字取证分析也至关重要以便从倳件中收集尽可能多的信息。表8总结了一些有助于完成这些任务的服务

域名或ISP(Internet服务提供商)。如果我们对特定事实感兴趣除了IP位置,ViewDNS网站还提供更多技术信息特别是,它包括用于显示有关域名的注册信息显示IP地址上托管的其他域,发现可能打开的公共端口以及在其上运行的服务或查看从ViewDNS到目标IP地址的网络路径的服务并分析关联的网络,路由器和服务器

但是,以前的资源提供的数据不是敏感数據或个人数据相反,That's Them确实提供了有关与给定IP地址相关的人员家庭住址,公司或电子邮件地址的有趣信息

提供个人信息的另一项强大垺务是“ 我知道您下载了什么”。该服务监视在线种子并公开与任何收集的IP地址关联的文件。我们的目标下载的文件可以揭示有关他的荇为或兴趣的真正敏感信息

OSINT调查中的一个典型兴趣点是网页。他们可以揭示有关我们目标的有趣信息特别是无论我们是与个人还是公司打交道。值得注意的是为IP地址解释的大多数技术在此情况下也适用。除了它们我们还可以突出显示表9中提供的其他一些服务。

DNS跟踪提取DNS记录但也标识与遇到的结果相关的其他域的数量。在此程度上这是查找关系和联系的非常有用的方法。Whoisoly还示出了从拥有者的姓名地址,电话号码或电子邮件地址的交叉引用图

Wayback Machine是另一项强大的服务,该服务定期从整个Internet备份许多网站这使研究人员可以分析网站的發展和变化,并能够查看特定日期的特定屏幕截图

Crowd可视化域连接。通过访问Whois来检查DNS和邮件服务器也很有用Whois还提供了用于检查连接性的ping功能和用于研究到给定域的数据路径的traceroute功能。还有诸如AlexaSametimeWeb之类的服务来计算流量静态信息还有诸如FindSubdomains之类的服务来搜索子域。

手动使用某些技术对于基本搜索就足够了不幸的是,使用一些服务可能对挑战性调查无效从这个意义上讲,OSINT的潜力在于以级联方式使用尽可能多嘚服务重复遵循工作流程将扩展可用信息,以将难题的所有部分放在一起但是,最终用户手动组合几种OSINT技术及其相关服务是不切实际嘚这样繁琐的任务将需要漫长的研究过程。

为此研究人员和开发人员已实现了更精确的工具,可自动应用OSINT技术并从许多不同的来源收集更好的质量信息在内部实施多个工作流,从而获得更多的奖励信息和更好的推论

表10给出了当今最流行和相关的OSINT工具的主要功能。我們指出了它们允许的输入和输出的类型包括自定义功能的功能,用户界面的类型功能的平台以及其他有趣的杂项功能。

尽管如此文獻中仍然有很多OSINT应用程序可以在OSINT框架中访问。

由ElevenPaths设计的FOCA 5(具有收集档案的指纹组织)的主要贡献是对电子文档中存在的元数据的提取和分析此应用程序既可以用于计算机中的本地文件,也可以用于使用三个不同的搜索引擎(GoogleBing和DuckDuckGo)从指定网页下载的外部文档。FOCA考虑多种格式例如Microsoft Office,PDFOpen

该应用程序提取文件的隐藏信息并对其进行处理以显示与用户相关的方面。通过此过程发现的一些详细信息包括与文档相关嘚计算机的名称文档的创建位置,使用的操作系统相关用户的真实姓名和电子邮件地址,有关服务器的数据创建日期结果,可以基於提取的元数据绘制网络图以识别目标

FOCA还包括服务器发现模块,以补充文档的元数据分析该工具使用的一些技术是:

(i)Web搜索,用于通过与给定域关联的URL搜索主机和域名;

(ii)DNS搜索以通过NS,MX和SPF服务器发现新的主机和域名;

(iii)IP解析用于通过DNS获得遇到的主机的IP地址;

(iv)PTR扫描,用于在发现的网段中查找更多服务器;

(v)Bing IP用于提取与遇到的IP地址相关的新域名。

该工具通常用于安全部门因为它可以使公司陷入困境。实际上它能够输出非常好的结果,因为公司通常不会从上传到网络的文件中清除元数据

Maltego 6是一个著名的应用程序,可以茬不同来源(DNS记录Whois记录,搜索引擎社交网络,各种在线API文件元数据等)中自动查找有关某个目标的公共信息。找到的感兴趣项之间嘚关系以有向图的形式表示以进行分析。该工具定义了四个主要概念:

实体:是图的节点代表发现的信息。一些默认实体是真实姓名电子邮件地址,用户名社交网络配置文件,公司组织,网站文档,从属关系域,DNS名称IP地址等等。此外我们还可以为我们的特定调查定义自定义实体。

转换:是一段代码应用于实体以发现新的链接实体。例如可以将DNS名称解析为IP地址的 “ To IP Address ” 转换可以应用于域洺实体“ um.es”以创建新的IP地址实体“ 155.54.212.103”。递归地我们将继续应用更多的转换,从而传播搜索过程除默认转换外,还可以实现和包括自定義转换以用于更特定的目的

机器:是一组定义在一起的转换,要执行这些转换以自动化和连接较长的搜索过程。

集线器项目:是一组轉换和实体类型用于允许社区用户重用它们。默认情况下Maltego实现名为“ Paterva CTAS”的中心项目,其中包含由官方开发人员维护的实体转换和机器。此外可以创建和安装第三方中心项目。

Metagoofil 7的作用与FOCA类似它是一个收集工具,可下载在目标域或URL中找到的公共文件并提取其元数据以輸出知识它会为渗透测试者生成有用的报告,其中包括用户名真实名称,软件版本以及服务器或计算机名称它还可以找到可能包含資源名称的其他文档。

尽管它是命令行功能但允许使用一些有趣的选项进行OSINT调查。除了指定目标域或要分析的本地文件夹外Metagoofil还允许过濾文件类型(pdf,docxls,pptodp,odsdocx,xlsxpptx),缩小搜索结果的范围并减少下载文件的数量确定保存下载文件的工作目录,或选择要写入输出的文件

Recon-NG 8是类似于Metasploit的Web识别框架。它提供了一个命令行界面该界面允许人们选择要使用的模块,该模块实质上是OSINT资源然后,如有必要我们設置一些参数并启动该过程。搜索结果将连续保存在工作区中该工作区又将馈入下一轮处理。

该工具包括几个实现不同功能的独立模块例如,Bing和Google搜索引擎中的Bing域Web模块和Google Site Web搜索模块分别用于连接到工作区域的主机;PGP Search扫描存储的域以查找与公共PGP密钥关联的电子邮件地址;Full Contact考虑存储的联系人在数据库中收集用户和相应的社交网络配置文件;或Profiler搜索其他拥有名称与工作空间中的用户名相同的帐户的联机服务。

Recon-NG在夲地数据库中不断凝集所有获得的信息这样,用户可以通过选择指示的模块来指导研究并且该工具可以从那里自动生成知识。该系统鈳针对复杂的调查显着扩展

Shodan 10是一个搜索引擎,可提供Internet连接节点(包括IoT设备)的公共信息其中包括服务器,路由器在线存储设备,监控摄像头网络摄像头或VoIP系统等。数据收集是通过HTTP或SSH等协议进行的允许用户按IP地址,组织国家/地区或城市进行搜索。

该工具主要用于網络安全(查找暴露在外部的设备或检测公共服务的漏洞)物联网(监视智能设备的使用及其在世界地理上的位置)以及跟踪勒索软件(以衡量此类攻击引起的感染)。它允许以JSONCSV或XML格式下载结果,以及生成用户友好的报告

Spiderfoot 11是另一种侦察工具,可自动通过大量公共数据源来编译信息我们的输入可以是IP地址,子网域名,电子邮件地址主机名,真实姓名或电话号码结果以包含所有实体和关系的节点圖表示。

根据引入的输入类型此工具可以自主选择模块(等效于Maltego转换)来激活,以进行更有效的侦察此外,它还考虑了用户选择的搜索级别Spiderfoot提供了四种类型的扫描:

(i)被动收集尽可能多的信息而不接触目标站点,从而避免被目标揭露;

(ii)调查人员进行基本扫描鉯发现目标的恶意行为;

iii 足迹确定目标的网络拓扑并从网络和搜索引擎收集信息,足以进行标准调查;

(iv)全部尽管需要很长时间才能唍成,但建议进行详细调查因为它绝对会查询与目标有关的所有可能资源。

该工具可用于启动渗透测试以揭示数据泄漏和漏洞,红队挑战或支持威胁情报另外,值得注意的是可以对定制的Spiderfoot模块进行编程。

收集器12允许通过搜索引擎收集与域名或公司名称有关的公共信息特别是,它能够列出公司的电子邮件和主机名以及与该域相关的子域,IP地址和URL它还允许结果的用户友好的HTML或XML表示形式。此资源用於渗透测试的早期阶段

该工具通过控制台进行管理,在扫描我们的目标网站时实现了两个选项一方面,Harvester代表原始脚本该脚本实际上提供了相关电子邮件地址的列表,而另一方面EmailHarvester通过更深入地挖掘以获得更好的结果来改进此过程。

使用它时研究人员将选择要使用的垺务,并且此工具会自动创建关联的查询链接之后,用户可以在浏览器中输入它们以启动查询但是,信息的可视化和收集仍然是手动嘚

尽管它没有实现服务的自动集成,但我们已经将InterTechniques视为OSINT工具该工具可帮助从集中式平台启动对各种服务的搜索。

不幸的是由于持续嘚网络攻击,该工具自2019年7月起不再免费并阻止了其开放访问。

根据用户需求(参见表10)某些工具将比其他工具更适合于给定任务。

因此如果我们打算从文件中提取隐藏信息,则FOCA和Metagoofil是为此目的而设计的特定工具特别是,第一个产品似乎比第二个产品更加完整成熟和強大。FOCA除了对文件进行元数据分析外还提供其他功能来补充隐藏的信息。结果它能够推断出有关目标的更多知识。

但是如果我们正茬寻找网络信息,则建议将ShodanSpiderfoot和The Harvester推荐用于此任务。一方面我们建议Spiderfoot分析目标的拓扑并检索有关目标组织的内部(但公共)信息。另一方媔我们将与Shodan一起完成结果,以包括有关IoT设备监控摄像头,网络摄像头VoIP系统或一般智能服务的特定信息。

最后但并非最不重要的一点昰如果搜索的目的是为给定的输入收集尽可能多的信息,则资源Recon-NG和Maltego是更完整的资源它们将返回各种数据和关系。第一个包含许多模块并与在调查过程中扩展的本地数据库进行交互,是进行渗透测试网络钓鱼和社会工程攻击预防甚至对个人进行概要分析的理想框架。楿反如果我们想避免使用命令行,而是选择一个更加用户友好的界面则可以使用Maltego是OSINT活动的不错选择。它通过转换来实现自动推理过程从而扩大了原始搜索的范围。而且它可以通过自定义发现过程扩展。

尽管已根据所需的输出进行了上述比较但实际上,用户将受到鈳用输入和所选OSINT工具接受的数据类型的限制最后,请注意这些工具是互补的且互不排斥的,这意味着对OSINT进行深入而透彻的调查可能会哃时从中受益尽管它们中的某些对于给定的搜索可能会产生相似的结果,但始终存在特定工具找到的细节而其他人却无法获得。

第七節OSINT在网络攻击调查中的集成

如今实施检测和响应网络事件的机制是一项义务。越来越多地暴露在Internet上的公司和组织投资于网络安全以保護其资产免受犯罪分子的侵害。因此有效地管理针对信息系统的威胁和事件非常重要。

网络防御不仅是部署技术解决方案(例如防火墙IDS(入侵检测系统),IPS(入侵防御系统)SIEM(安全信息和事件管理)或防病毒软件)以避免已知威胁的方法,而且还在于植入网络智能从倳件中提取和分析痕迹模式和结论。实际上提取和共享事件的证据,关系和后果的连续周期称为威胁情报[65]它以最新信息对传统防御機制进行补充,并极大地改善了基础设施的保护危害的管理和响应的有效性[41]。

此外通常用于取证和调查的信息仅是技术性的。但是網络攻击留下的痕迹包含有价值的信息,不仅应与事件存储库进行对比[66]而且还应与社交网络,论坛媒体,技术和政府文档以及其他数芓公共资源进行对比这些开放源代码在分析中贡献了语义信息,这对于计算和推理更复杂影响深远的推论非常有趣。请注意网络攻擊者将互联网用于其非法行为(黑客,网络钓鱼拒绝服务攻击,僵尸网络身份盗用,入侵等)也出于个人原因。从这个意义上讲OSINT鈳用于连接所有这些点。

将OSINT应用于网络安全的一些工作着重于在面临威胁时提出防御性改进相反,他们很少寻求识别网络攻击者OSINT是一種知识来源,可以通过从恶意行为的最小细节到问题根源来支持对网络攻击的调查最后的挑战并不是新事物,因为它在传统上被称为归洇问题[67]具体而言,OSINT将使我们能够了解网络攻击的动机猜测程序并最终确定犯罪者。

OSINT的建议应用如图3所示请注意,已经提出了几种方法和模型来定义组织的检测成熟度这对于从遭受网络攻击的事件中提取证据至关重要。然而在这个领域中缺乏表示分类法和本体的标准[68],因此我们提出了Ryan Stillions的DML模型的修改版本[69]来举例说明这一部分但是,可以使用另一种网络威胁检测方案以类似的方式来显示OSINT的应用

DML模型鉯分级方式表示检测网络攻击时的不同抽象级别。不投资网络安全的公司将只能达到最低要求相反,具有网络防御技术的组织可能会解釋更复杂的事实即以更多抽象的方式升华。

虽然可以轻松覆盖较低级别但挑战在于到达较高层。为此我们建议将OSINT用作情报来源,以朂基本的证据为基础得出更可靠的事实:

首先我们假设可以涵盖DML-1和DML-2级别。第一个是妥协的原子指示符(IOC)由细节组成,例如修改后的攵件中的字符串存储单元的值或通过网络传输的字节等,它们本身的值很小但是一起形成下一个层次。该主机和网络文物层时期间或網络攻击如IP地址,域名日志,交易哈希值,或文件操作细节后观察到的指标构建的

由于此类数据驻留在受影响的信息系统中,因此在我们的框架中它被视为开放源代码中相关信息收集的输入(有关OSINT收集的更多详细信息,请参阅第V节)因此,这些迹线的提取是OSINT进程的起点

接下来,我们从DML-3级到DML-6级第三级工具包括检测攻击者使用的工具的转移,存在和功能如果能够枚举事件发生期间执行的步骤,则涵盖以下级别的过程第五级技术提取了攻击者如何具体执行攻击的各个阶段。最后一级战术,是一个更抽象的概念它考虑了上媔讨论的级别,并通过分析时间和上下文中的一组活动来获取知识

在这种情况下,该信息将揭示有关网络攻击执行的详细信息这样的數据极大地丰富了OSINT周期的分析阶段。从这些数据得出的模式以及与已经存储的其他案例的相关性使我们能够进行更智能,更全面的分析实际上,这些结论应与收集阶段获得的结果结合在一起通过这种方式,可以改进通过网络进行的探索从而将调查范围缩小到最终目標。

最后OSINT的不断收集和分析过程会生成有价值的信息,并应用了知识提取技术使用OSINT从DML-1到DML-6级别提取的知识将使我们达到最高级别,即从DML-7箌DML-9第七级,策略是对计划完成的网络罪犯攻击的高级描述。第八层目标是攻击者的特定目标表示攻击的真正动机。在顶部我们找箌了身份级别,本质上是负责恶意行为的个人组织甚至国家的名称。由于很难找到详细信息因此与其他网络攻击的联系以及与其他事件的相似性可以支持相对归因[67]。也就是说使用有关显然由同一行为者引起的其他事件的附加信息来完成对当前案件的调查,可以使我们哽接近于对网络攻击者的绝对识别

OSINT的这种应用代表了针对网络威胁而采取的创新行动。挑战在于实现有效的收集和智能分析程序机制鉯提取无法从恶意行为中直接提取的那些高级细节。这些细节是要实现的最复杂的信息因为它们具有很高的抽象度,与技术细节相距甚遠这就是为什么明智的做法是为任何关系或模式寻找开源,这会使我们发现更多有关事件的背景和发起者的信息OSINT是配置网络攻击者和妀进对复杂攻击的检测工具中缺少的关键部分[70] 感谢对DML-3到DML-9的高级行为方面的考虑。

第八节OSINT在国家和州

OSINT不仅对私营部门有利而且代表了政府嘚公共利益资源。在这方面在第VIII-A节中,我们讨论OSINT并不是为偏执的分析师或计算机极客设计的范式但确实在网络防御国家系统中具有巨夶的优势[71]。同样在第VIII-B节中我们注意到官方机构不仅从内部任务的OSINT结果中获利,而且间接使第三方更容易使用OSINT实际上,它们成为生成大量数据的代理每个人都可以访问。从这个意义上讲政府是一把双刃剑,得益于OSINT但同时它们也为向Internet提供真正有价值的,有时甚至是敏感的信息做出了贡献

传统上,情报机构与执法机构(LEA)和军事机构的工作有关同样,如今OSINT被视为国家事务中机密调查和秘密行动的偅要钥匙[5]。在某种程度上可以肯定地说,利用OSINT可以为LEA提供重要能力以补充和增强其反情报部门在打击犯罪的调查和战略规划中的作用[72]。

据我们能够在官方网站报告和文档中探索的情况,政府组织似乎实施了内部机制该机制主要包括利用OSINT机制收集原始信息并将其转化為有用的知识[73]。以代表性的方式我们可以提及美国联邦调查局(FBI,fbi.gov)美国中央情报局(CIA,cia.gov)加拿大安全情报局(CSIS,canada.ca/en/security-intelligence)服务)欧盟執法合作局(EUROPOL,europol.europa.eu)北大西洋公约组织(NATO,nato.int)美国陆军部(DA,Army.mil)美国国防部(DoD,defence.gov)美国国家安全局(NSA,nsa.gov)或欧洲国防局(EDAeda.europa.eu),在其他人中

在这种不确定的情况下,我们决定特别研究西班牙LEA的案例以证明其亲和力,以证明官方有机体内部确实在使用OSINT经过全面检查的结果,我们可以有力地确认要找到国家力量实施OSINT的明确证据并不容易。这类机构的机密性使其难以发现其内部运作模式以及OSINT在当前調查中的影响但是,由于进行了深入的搜索我们发现了一些微妙的发现,这些事实证实了OSINT目前被西班牙LEA使用:

早在2007年CNI的负责人(即覀班牙国家情报局)表示14,开源是“ 情报工作的基础和工作基础 ”

CIFAS(即西班牙军事情报局)似乎也使用OSINT作为获取信息的方式我们发现了┅些可以证实这一点的幻灯片,最早可追溯到2008年并已上传到西班牙国防参谋部的网站上。15

2010年当CNI主管宣布16建立特殊代理人道德守则时,怹还坚持认为现代情报不仅仅基于物理存在,因为今天“ 您可能会在计算机上获得更多信息探索来自坏人的消息 ”。

最近在2017年,西癍牙国防部针对该合同打开了一个公开电话17该合同名为“ 基于IDOL HAVEN平台开发OSINT工具 ”。

目前西班牙陆军正在设计一种称为Brigade 2035的新模型,该模型融合了创新的技术进步以增强作战能力在该项目中,18种已定义的战斗功能之一是情报它明确指出OSINT是一项主要职责:“ 其他越来越重要嘚设施将是开源获取(包括社交网络)”。

西班牙内政部在《 2019年年度招聘计划》中发布了19项 “ 在网络空间获得OSINT的系统 ”的投资

考虑到所囿这些事实,目前OSINT似乎确实与西班牙的内政有关类似地,我们也可以强调指出OSINT也高度发展了欧盟成员国[74]。

B.开放数据政策和透明度

OSINT能否囿效取决于互联网以及其他来源上可用的公共数据在这方面,除了社交网络和其他开放数据源之外还有由世界各地的国家机构维护的權威性和官方站点,这些站点公开发布了公共信息因此可以公开使用。

开放数据晴雨表(ODB)是由万维网基金会设计的全球排名系统用於衡量国家开放数据政策的准备情况,实施情况和影响在图4所示最新完整版的分数。

正如我们在前面小节中所做的那样我们研究了西癍牙在亲和力方面的具体案例。实际上在上述ODB报告中,西班牙排名第11位此外,根据欧洲数据门户网站及其有关整个欧洲开放数据成熟喥的官方报告西班牙是透明度和开放数据方面最先进的国家之一。在过去四年中它在开放数据成熟度排名中排名第一或第二。如前所述西班牙政府已促进了160多个开放数据计划,并拥有23,800多个公共信息目录例如,西班牙政府的开放数据倡议23这清楚地证明了西班牙如何鼓勵透明度OSINT可以从中受益,但是OSINT应该通过链接和推断新知识来处理汇总和统计信息

当然,还有一些匿名数据库对OSINT毫无用处因为它们缺乏产生情报的价值。这些所谓的匿名数据集显然不会破坏数据与其所有者之间的链接最近,已经发布了一种算法[75]可以从公共数据中明確识别99.98%的美国人。特别是具有15个与医学,行为和社会人口统计学信息有关的参数就足够了例如婚姻状况,性别或房屋的邮政编码洇此,OSINT可以再次用于重新识别匿名数据库中收集的人员

相反,实际上也没有匿名的政府平台例如,西班牙财政部西班牙内政部或西癍牙国防部通常会发布带有个人信息的文档(例如,“ site:hacienda.gob.es filetype:pdf intext:dni”)同样,这也可以应用于西班牙自治社区网站此外,欧洲也有一个公囲数据平台24我们可以在其中找到许多公共信息。例如在外交政策和安全的背景下,“ 欧盟综合金融制裁清单 ”文件中提供了最新的金融制裁清单特别是,它揭示了有关个人团体和实体的个人信息。

所有上述事实表明世界各国政府都在采用强有力的开放数据政策。矗接的结果是Internet上可用的客观数据量正在迅速增加。除其他开放信息来源外OSINT还应利用这一强大的机会来收集,分析链接和推断可靠和官方来源的知识。在这种情况下根据ODB,英国加拿大,法国美国,韩国澳大利亚,新西兰日本,荷兰挪威或巴西等国家/地区是嫃正的OSINT金矿,其特征与所评论的西班牙非常相似

第九节公开挑战和未来趋势

对OSINT进行的审查表明,该主题已经开展了大量工作到目前为圵,已经开发了许多技术和工具但是,在该领域中存在一些差距和局限性以继续利用所提供的机会。有必要使更复杂的解决方案适用於现实世界中不受控制的场景据我们所知,我们发现了一些挑战这些挑战如今已经开放,研究界将在未来的未来中面对这些挑战

收集的信息量越多,就越有可能创建推理和关系但是,当今可用的公共数据数量巨大无法以手动方式收集[76]。尽管OSINT技术(第V节)和工具(苐VI节)已经朝着这个方向迈出了一大步但它们中的大多数仍然很大程度上取决于最终用户。从这个意义上讲合并更复杂的技术将很有吸引力。我们着重介绍当前的大数据技术例如Web爬网或Web抓取[77],作为自动化和改进OSINT对大量开放数据的探索的潜在范例

重新收集过程的一个偅要方面是搜索的传播。通过搜索获得的结果应重新进行以下几轮收集在OSINT中,提取枢轴的功能非常强大可以将输出串联起来作为传播嘚新输入。这种递归方法扩大了研究范围并且与我们接下来将要讨论的分析过程密切相关。

B.增强分析和知识提取过程

对重新收集的打开數据的解释是OSINT过程中的关键点提取抓取结果的实质,在分开的信息之间建立关系或者推断未明确公开的结论,可以提高结果的质量確实,通过更好的输入可以增强与进一步调查传播的递归集成

但是,据我们所知OSINT分析今天并未实现智能机制。现有工具仅限于抛出所囿找到的信息及其显式关系相反,分析过程应包括语义分析模式研究,与其他事件事件或数据集的相关性。

幸运的是诸如自然语訁处理,社交网络分析机器学习或深度学习等现代数据挖掘技术[78]实际上是为解决此类挑战而设计的。在此知识领域中正确选择算法将使當前的静态分析与未来的推理处理有所不同[79]

理想情况下,未来的OSINT应该能够为最终用户提供他/她正在搜索的特定信息并在调查中返回令囚信服的答案。原始搜索不仅将具有直接推论而且还将具有间接和非显式关系。

这项挑战为OSINT第二代和第三代之间建立了道路正如在[1]中介绍的那样,第二代始于互联网和社交媒体的兴起挑战是“ 技术专长,虚拟可访问性和不断获取 ”相比之下,向第三代的演进应该会茬今天出现并且必须包括“ 对数据的直接和间接机器处理,机器学习和自动推理 ”

C.几个开放数据源的集成

OSINT活动应咨询尽可能多的资源,以涵盖尽可能广泛的范围将研究重点放在单个社交网络或特定论坛上不是一个好主意。从这个意义上说成功在于结合数据源以获得朂佳结果。这意味着系统必须规范化通常为非结构化的可用信息以便执行有效的分析和关联。结果丢弃重复的项目很重要。实际上夲文介绍的不同OSINT技术和工具实际上是在利用这种坐姿来收集与目标有关的知识。

另一方面真正的挑战是不仅要合并几个数据源,还要合並不同类型的数据源[80]除了从Internet,Dark Web和Deep Web中提取的数据外OSINT工作流还应考虑与社会工程或公民协作面对面收集的信息。为了达到搜索的下一个里程碑必须使用我们感兴趣的任何信息。此外对于来自不同数据源的信息矛盾的情况,必须实施真相发现过程[81]

D.过滤掉不相关的数据和錯误信息

由于公开可用的海量数据,OSINT流程需要能够区分每条信息的相关性丢弃不会增加调查质量的数据[82]。研究人员不能专注于浏览整个網站的详细信息阅读多页新闻或分析复杂的政府文件。相反OSINT研究需要提取实际上能够提供价值并揭示有关我们目标的知识的关键字。峩们感兴趣的信息可能不会明确发布而挑战将是提取我们正在研究的数据源的本质。同时提取的精确术语是创建新探索路径的关键。

此外检测会破坏结果的错误信息至关重要[83]。从本质上讲互联网是主观的,大多数内容不能保证可靠和正式OSINT社区必须确定对开放源数據的日益依赖是否仍与源验证相结合,这代表了主要要求和优先级[84]那些不真实的信息可能会转移我们的搜索范围,导致错误的结果或偏離我们的真实目标因此,以提取情报为目的不仅要对客观信息进行分析,还要对虚假信息进行分析

这个问题将在现实生活中出现。茬论坛和社交网络中我们将找到有关嫌疑人的更多有价值信息的数据源。在这些站点中调查人员必须处理其准确性值得怀疑的观点,主观出版物和个人喜好[85]对实际上不构成威胁(误报)的人进行分析可能会引起歧视性和不公平的态度,可能会影响受害者

许多现有OSINT资源的主要缺点之一是它们仅适用于特定国家/地区,从而降低了其对少数族裔人群的分析能力但是,OSINT应该是一种通用技术可以在不区分網络空间区域的情况下立即巡视地球的各个角落。因此互操作性是OSINT设计中要考虑的理想属性,因为它不仅会增加搜索范围还会增加最終用户的使用范围。

理想情况下良好的OSINT服务或工具不应区分国家,而应将每项研究作为一项全球任务而没有国界OSINT工作流程应合并世界各地的信息点,并将这些分布式数据源关联起来实际上,尽管可以手动完成搜索区域之间的关系但真正的挑战在于实现这些跳转的 OSINT应鼡程序。

此外流程的全球化不会留下来自不同地区的吸引人的开放数据源,这些数据源实际上可以填补我们在调查中需要解决的空白唎如,在西班牙我们使用在国外(和为国外)设计的工具。但是没有OSINT解决方案在收集阶段包括西班牙的公共存储库(可能是政府的开放数据平台)。从这个意义上讲我们还没有从假定是欧洲最透明的国家之一的金矿中充分受益。

对于行动不便的游牧目标通用且灵活嘚实现方式特别有用。假设被调查的目标对象是在多个国家/地区生活过一段时间的人在多个大洲设有总部的公司,甚至是改变位置使其難以追捕的犯罪分子在这些情况下,在特定国家/地区进行静态搜索将导致大量信息无法收集并且许多线索无法得到分析。

F.隐私意识噵德和法律考虑

从道德的角度来看,OSINT必须尊重用户的隐私以免损害其私人生活以及家人,朋友和同事的隐私信息可公开访问这一事实並不意味着它不敏感。知道目标的个人喜好和品味会在他的隐私中造成伤害透露政治思想可能会在某些地方造成致命的后果。在某些国镓/地区传达性取向可能会威胁生命知道宗教信仰会导致在特定领土上的刑事定罪。因此出于社会的利益,出于合法目的必须谨慎处悝开源信息。

从法律角度来看应在法律的基础上使用OSINT并遵守数据保护政策。随着欧盟GDPR的到来有关个人数据的法规也发生了变化[86]。从这個意义上讲个人数据包括可以与任何公民有关的任何信息。此外即使信息经过加密或匿名处理,收集在一起的不同信息也可以构成个囚数据也可以构成个人数据[14]。解决此类挑战的可能解决方案是使OSINT工具的设计适应嵌入的规范约束尤其是GPDR法律要求[87]。根据定义由于OSINT使鼡的数据源具有公共性质,因此它是完全合法的但是,调查人员不得发布收集的个人信息即使该信息已发布在网络上也是如此。此外应用OSINT的用户不会陷入尝试假冒目标以查找更多信息的错误。还应该注意的是为了访问我们正在寻找的信息,不能打破认证障碍

简而訁之,OSINT的使用应仅限于合法活动和非恶意目的原则上,OSINT不会(也不应)侵犯人类自由和权利因此,在此程度上其先前提到的技术和垺务是合法的[88]。这是一种非常强大的方法但是如果滥用,也会很危险借助OSINT,记者可以提供最新客观和优质的新闻。人力资源经理可鉯更好地了解求职者各国当局可以调查犯罪和恐怖组织。公司可以审核其在国外面临的网络威胁但是,这种开放使用OSINT技术到特定类别嘚开放性应该始终被正确地证明是正确的[89]

不利的一面是,OSINT最终用户可能是犯罪的不法之徒饼干可能会勾勒出目标的轮廓,以增加成功嘚可能性小偷可以分析家庭成员在最佳时间从家里偷东西。如果没有支付赎金勒索者可以发布受害者的私人和个人信息。

开发人员在實现OSINT工具时必须考虑上述方面无论如何,就我们而言最强大的工具应仅适用于LEA和情报机构。

正如前面各节中已经提到的那样OSINT范例的潛力非常广泛。实际上确实有可能利用开放数据进行网络安全和网络防御,从而调查攻击者和/或恐怖组织[90]但是,对公开可用数据的利鼡容易受到滥用也就是说,动机不足的参与者可能会利用大量信息来进行网络侵略例如网络欺凌,网络八卦和网络受害[91]不幸的是,這些现象在网络上越来越频繁地出现而且令人震惊地更加频繁,从而使受害者陷入困境孤独,沮丧甚至在最坏的情况下自杀[16]特别是,网络闲话是由一群人通过数字设备对不在场的某人做出评价性评论来执行的这种网络行为会影响其发生的社会群体,并可能阻碍同伴關系从而损害这种过程的受害者[92]

在此程度上重要的是控制OSINT技术和服务以正确的方式使用,而又不损害他人的权利和自由[93]更具体地說,人们可以考虑根据最终用户类别给予不同的特权从而避免授予对整个信息范围的完全访问权限。例如员工可以访问基本信息以增強其任务(例如,承担人力资源招聘职责)而政府和警察部队则可以探索和调查更多开放数据(例如,猎捕网络罪犯)

最后,重要的昰要注意到OSINT正在启用新的提议来对抗这种网络攻击的祸害[94]从这种意义上讲,实际上可以使用基于OSINT的工具正确检测OSINT的滥用

论坛,社交网絡或媒体的广泛使用以及大量现有数据,使开源情报(OSINT)成为下一个Internet金矿从公共资源中提取知识代表了一种从不同和创新的角度解决現有问题的方法。特别是这种类型的情报可以提供的结果可以极大地受益于网络安全和网络防御。因此应该实施自动化的OSINT流程,能够對Internet的所有部分进行调查并通过网络扩展我们的思维。

本文介绍了当今OSINT的状态结果表明,当前作品的有效性值得怀疑这主要是由于它們在实际场景中的应用不佳。实际上缺乏将OSINT转换为可靠的自我管理解决方案的严肃方法。但是我们建议将OSINT集成到现有的网络防御机制Φ,以从网络事件的原子技术痕迹转移到罪魁祸首或犯罪嫌疑人的身份本文还介绍了一些用于基本搜索的OSINT技术,并介绍了当今用于高级調查的最复杂的OSINT工具根据可获得的数据和最终目标,适当选择最合适的工具将明显不同

在西班牙的背景下,我们指出了一些迹象这些迹象可能证实西班牙执法机构和情报服务部门在其内部程序中采用了OSINT。尽管OSINT是其运作的机密方面但在他们的调查中,OSINT仍然是至关重要嘚要素值得指出的是,由于开放数据的成熟度西班牙将是研究,开发和应用此方法论的广阔地区实际上,根据欧洲数据门户网站咜是欧洲最透明的国家之一。

作为未来的研究方向本文概述了与收集,分析和提取来自互联网的真实知识有关的一些开放性挑战错误信息,隐私和合法性等方面将在OSINT的未来中变得突出在这个领域还有很长的路要走,为此社区应该通过包括先进技术和改善当前性能来應对所讨论的挑战。OSINT的最终目标是能够以自动化和自动驱动的方式确保出于特定目的所需的发现

我要回帖

更多关于 www3344Tp,cOm 的文章

 

随机推荐