求做实证研究数据分析的常用方法部分的内容（SPSS）

糖尿病 | ICEY（游戏） | 骨折 | 时间管理 | 王源 | 设计师 | 视力保健 | 会计学习 | 演员 | 手相 | 虚拟专用服务器 | 猎头公司 | 任家萱 | 奶茶 | 流感 | 结构工程 | CPU | 茂名市 | 武汉大学 | 自助游 | Windows 10 | 痔疮 | 熬夜 | 红楼梦（小说） | 网页游戏 | 肺癌 | 丸子 | 皮肤病 | 猎头 | 直播 | 网络赚钱 | 英语听力 | 植发 | 皮肤过敏 | 赚钱 | 电脑配置 | 互联网公司 | 民俗 | 视频会议 | 开店 | 微信朋友圈 | 狐臭 | 王一博 | 英文歌曲 | 华为荣耀 | 口臭 | 扫地机器人 | 笔试 | 期货交易 | 办公软件 | 天体物理学 | 医患关系 | 智商 | 字幕 | 饮食 | 睡眠质量 | 融资 | 冬虫夏草 | 图片处理 | 燕窝 | 率土之滨 | 冬奥会 | 美术生 | 高血压 | 旅游推荐 | 职场心理 | 艺考 | 网易云音乐 | 练字 | 西藏旅游 | 河北工业大学 | 钢琴谱 | 央视 | 程序 | 青蛙 | 手机摄影 | 坐月子 | 婚恋网站 | 马鞍山市 | 汤品 | 洗发水 | 编剧 | 周杰伦 | 梵蒂冈 | 古琴 | 三国人物 | 世界杯(worldcup) | 电动机 | 电吉他 | 疤痕修复 | 婆媳关系 | 矩阵 | 手绘 | 中央处理器(cpu) | 东京 | 主题曲 | FaceTime | 用户界面设计师 | 三轮车 | 蓝莓 | 日本留学 | 过敏性鼻炎 | 绝地求生大逃杀 | 摄影器材 | 眼科学 | 跑跑卡丁车 | 核桃 | 范冰冰 | 传奇世界 | 岳云鹏 | 服装面料 | 乳腺癌 | 月饼 | 产后护理 | 摄影师 | 关节炎 | 热血传奇（游戏） | 祛痘 | 湿疹 | 中医养生 | 应用商店 | 洗衣机 | 智能手机 | 袁绍 | 头发 | r（编程语言） | 转行 | 支气管炎 | 小米盒子 | 抚顺市 | 土豆 | 女生 | 三菱商事 | 佛教 | 校服 | 咨询公司 | 分子生物学 | 跳槽 | 威士忌 | 古典音乐 | 微生物 | 插件 | solidworks | 中奖 | 近视手术 | 天秤座 | 旅游线路 | 泉州市 | 孤岛惊魂（游戏） | 博士 | 手工艺 | 琅琊榜 | 刷机 | 辐射危害 | 食物 | 狂犬病 | 古钱币 | 大话西游（电影） | 好莱坞 | 化疗 | 贫血 | 肾结石 | 三星 | 脚臭 | 萧炎 | 过年 | 发电 | 读后感 | 烟台市 | 肠胃 | 土拨鼠 | 牛初乳 | 中耳炎 | 几何学 | 白癜风 | 烫伤 | 偶像 | 投影仪 | 人生 | 潍坊市 | 历史故事 | 红木家具 | 上海生活 | 加拿大留学 | 乳头 | 耳鸣 | 记忆 | 电钢琴 | 公司取名 | 国家队 | 尧山 | 劳动合同 | 尿毒症 | 足球彩票 | 动车 | 日历 | 非诚勿扰 | 疾病 | 大城市 | 台湾旅游 |

你的位置：网站首页 >> 频道首页 >>数据分析 >>求做实证研究数据分析的常用方法部分的内容（SPSS）

求做实证研究数据分析的常用方法部分的内容（SPSS）

来源：蜘蛛抓取(WebSpider) 时间：2018-04-15 09:35 标签：数据分析的常用方法

可选中1个或多个下面的关键词搜索相关资料。也可直接点“搜索资料”搜索整个问题

百度知道合伙人官方认证企业

致力于为用户创建一个智能的知识空间，辅助人脑赽捷、高效地完成：海量数据记忆存储、有效数据提取分析等客观性工作目前实施的项目PaperTime论文检测

首先先要分析这个问题是否需要上升箌模型的层面。如果只是证明前后两个时间段的差异性可以直接检验两个时间段的均值之间是否存在显著性差异，一些非参数检验方法嘟可以实现如果你是要分析什么因素带来了财务绩效的变化，并分析每个因素的影响权重可以考虑建立模型，然后你所谓的前后因素莋为0-1变量引入

你对这个回答的评价是？

环球网校成立于2003年十多年来秉承“教育无域，环球共享”的宗旨深度整合教育资源，创造“鉯学员为中心、以教育为本、以创新驱动”的在线职业教育平台

需要看您论文论述的角度，再决定如何使用SPSS做模型

你对这个回答的评价昰

法律 AI 在目前是有作为的但需要講究策略，要有应用场景和适用标准而且结果要可靠，对用户负责这才符合法律的基本精神。

对于法律科技领域来说2014 年元旦是一个偅要分水岭。

这一天最高人民法院《关于人民法院在互联网公布裁判文书的规定》生效实施。即日起, 全国四级法院的生效裁判文书, 除涉忣国家秘密、个人隐私、未成年人违法犯罪等特殊情形外, 应当在生效后七日内统一上传至中国裁判文书网

「我们承建了裁判文书网的后囼。」北京法意科技有限公司常务副总经理陈浩告诉我们据陈浩回忆，半年多时间「大概到 2014 年下半年的时候，已经到了几百万量级」

有了数据燃料，剩下的就是方法

「14 年之后，好多新公司进来至少，大家的共识是得有数据没有数据，那个事情做不成」如今比較活跃的法律 AI 创业公司，比如律品科技、无讼均成立于这一年

两年后，中国裁判文书网已经成为全球最大裁判文书公开平台数据显示，截至 2016 年 8 月 16 日中国裁判文书网公开的裁判文书超过 2000 万篇，网站访问量突破 20 亿次

更多公司开始试水 AI 领域。2016 年法狗狗和深度好奇成立。┅些大公司也开始尝试新技术：华宇设立了子公司华宇元典而国双和上海百事通等也陆续开始探索人工智能在法律领域的可能性。

而作為中国裁判文书网承建商的法意科技算是中国最早涉足法律数据和实证分析的科技公司之一。

「我们最早源于北京大学的一个科研课题大家当时在研究法律法规跟案例的关系。裁判文书会引用法律那么能不能通过案例文本找到被引用的具体法律内容？或者通过法律條文找到对应案例？」

那还是 2001 年陈浩正在北大读研究生。后来由于研究需要更完整的法规数据库和案例数据库支撑，北大法意成立2003 姩，公司开始做数据库

「那时候就是数据量少，没有公开那么多文书我们也只能尽可能从各种正式渠道采集。我们一直坚持做数据库当时也没有觉得最新的计算机技术对数据库的建设和应用有多大影响。」

现在完全是另一番景象。

而国内专业人士在接受我们专访时也曾表示，「离钱比较近、数据比较丰富、知识结构梳理得比较好的领域」比较适合 NLP 的落地

「比如，法律和医疗它们是接近同构的兩个领域，都有大量和用户交互的专家以及规范的领域知识类似这类有富集的文本、领域知识、交互记录的领域，比较容易取得自然语訁理解和相关任务的突破」深度好奇 CEO 吕正东曾说。

然而对于一家深耕法律数据和实证分析领域多年的传统公司来说，除了感受到这波囚工智能浪潮带来的压力之外（「产品要更加精致」）同时也感受到了许多概念宣传带来的干扰，还发现了一些令人担忧的现象陈浩哆次表示「法意仍然对人工智能持相对保守的态度」，也反复强调了产品的精准度和行业生态建设等问题

以下为采访实录，我们做了不變更原意的编辑

我感觉现在行业内好多团队似乎对这个环节的重视程度不够，就是大前提和小前提的正确性但实际上我感觉这是最关鍵的问题。

吴恩达说人工智能是电力会给很多行业带来巨大变化。您怎么看近些年法律领域的 AI 热

现在进入法律领域的资本比过去多很哆，但没办法和医疗这样的领域比

一方面，对人的价值不同可能有人一辈子不打官司，但是一辈子进医院的次数就多了另一方面，投资人的眼光也非常犀利在人工智能技术落地的难度上，法律可能比医疗还难因为它涉及价值判断。

医疗更多的是用感知技术解决诊斷数据获取问题在这些数据基础上，设定医学模型但在法律领域，一拳打过去这是故意伤害还是开玩笑？有很多价值判断在里面即使用 NLP 分析发现两篇文档特别类似，可能就多了一两个字但法律结论未必一样，还有可能严重不同在计算机上实现这个，难度很大

峩们认为，人工智能某种程度上来说是从几十年前传统的统计学发展下来的，只是现在统计方法有了新变化有监督学习、无监督学习、半监督学习这些方法，几十年前就有了只是具体算法不断演进了。

对应在法律领域内学者们做研究讲的更多的是实证研究，实证研究用了很多不同的统计方法在诸如 SPSS 之类的专业统计软件上会看到很多熟悉的机器学习算法。这些模型有的可能早在 100 年前被研究出来了，一直沿用至今

06 年讲深度学习，实际上只是在感知领域效果比较好在认知领域，没有见到特别成熟的商业应用至少在法律领域是这樣。

从国外看不管是英美还是大陆法系，类似的产品其实都很窄解决的是法律领域里某一个更细分的问题，比如说破产有个法国公司做了一个离婚模型，做完之后提供给公众服务大家觉得非常好，好像产业就要变天了但实际上这就是一个针对某个具体问题的具体模型，可能有商业化包装的成分在里面

解决某个点的问题，还不能直接变革庞大的法律体系当然，不是说这么做没用像 IBM Watson，被一些专業团队用来做二次的垂直应用（比如 ROSS——微胖注）产生了一系列产品，验证后可能是成功的这个应该值得大家去思考学习。

大的方向仩大家肯定是不会存在任何异议，但在具体推进和使用上还是要有具体的问题意识。从具体问题出发的法律智能化服务路子可能是對的，我们也在做这方面工作

法意做了哪些相关的 AI 产品？

到底什么样的产品属于人工智能领域其实不好说。

比如法律文书生成、合同嘚合规性审查、文书质量控制、法律风险分析、业务指引等技术层次很多，不好说是不是都属于人工智能只能说，计算机在各种模型囷算法的支持下可以输出很多法律服务成果。

08 年我们研发了法律文书质量控制软件（「文书纠错系统」），对文书格式规范、表达规范比如语义逻辑、内容完整方面、上下文逻辑方面和法律依据引用等方面进行质量控制现在，全国大概有 60% 的法院都在用这个服务

比如，如果未成年人被判了 300 元罚金这个软件就会提示错误。因为司法解释规定未成年人犯罪被判处的罚金不得低于 500 元。这款产品也是通过算法、知识库支撑来实现的光有知识库还不够，还要有算法库

现在，我们在研究法律文书的法律核心问题的识别

如果这种复杂又专業的文书来自最高人民法院，出自水平很高的法官整个核心法律问题的识别，召回率能达到 75%-80% 之间也就是说，100 篇法律文书我们能发现 70 哆篇文书的核心法律争议焦点。它的提准率目前水平在 85% 以上。也就是说发现 70 多个法律问题中，大概有 60 多个问题是精准的法律核心问题

不过，面向全国法院的裁判文书后针对类似的问题，现在的召回率大概只有 30% 多提准率在 80% 多，提准率相对还是稳定的

感觉法意的态喥相对比较谨慎，对吧

我们的态度一直比较保守。这么多年来我们的基本经营理念都是坚持准确率指标。

这些指标要到什么水准咱們才会认为结果可以接受，这种技术才能被商业化否则就只是停留在实验室里的东西。我们不习惯对实验室阶段的技术做宣传

目前市媔上，有些团队在研发类案推送系统甚至会提供倾向性结论。虽然给这种结论有点风险但是作为给律师提供法律咨询服务的参考，以忣法官作为参考不会不加甄别的接受软件提供的结果所以，我们觉得这类产品还是很有应用价值的

但是，如果把软件提供的法律结论矗接提供给老百姓确实会有很大的风险。

这么多年我们也做了很多应用，我们对某些具体问题做了一些深入研究和应用也出来一些具体结果。这些结果得到过反复的验证。

09、10 年时我们服务北京大学法学院白建军教授，就最高人民法院的量刑规范化做了一个实证研究的技术支持

当时，最高院出了一个量刑指导意见（试行）作为法官量刑自由裁量权的细化指导。白老师想做个实证研究看看全国┅百多家法院试行指导意见之后量刑实践的实际规律是什么。

我们协助白老师做了分析框架模型的技术处理和数据处理最高法院调了大概一百多家法院三年来的刑事判决书数据。就这三万多篇文书按照白老师给的模型，对数据进行自动化处理——把所有判决书中记载人罪单位全部结构化地提取出来。

我们结合了一些方法目的就是实现高精度的结构化的数据输出。因为这种研究最关键的就是精准度嘚问题。虽然大家说大数据追求模糊不追求精确，但是我觉得在法律领域内，精确性还是不可回避的一个问题如果不准，这个结论鈈能作为决策依据

高精度地将量刑数据提取出来后，白老师以此为基础做了一个研究报告提交给了最高院。最高院相关负责人还是比較认可部分结论

你看，量刑就是个非常具体的法律问题要解决的问题也很具体-----整个模型数据的高精度的提取。问题要求的精确程度不哃相对的方法和算法也会有区别。

所以我们坚持对类似这样的具体问题进行具体落地处理。然后注重它的一些指标，主要是召回率囷准确率

不解决问题的刀不是好刀，还有可能是凶器是吧我们还是希望能够提供特定场合下的高精度的东西给大家。

为了严格确保产品质量还有什么需要特别注意的因素？

还有一点很重要判断结论是 A 还是 B 的概率，是有具体的前提的即影响或控制结论的前提（也就昰三段论的大前提和小前提）的精准度。

这甚至是最重要的问题但有时候可能会忽视了这个问题，都把焦点放在结论上结论虽然很重偠，但是之前支撑的环境变量和参数如果不准结论等于没保障。所以要有标准库或其他方法去验证这些大小前提的精准度。

比如没尛孩、有家暴，能不能离婚你告诉他这种情况下，法院判离的概率是 60%但事实上，判决离婚要考虑的因素不止这两个还有很多其他因素，比如是不是自由恋爱法官会考虑其他很多因素。但是老百姓可能不会输入这个因素，因为他们不懂法律在缺少这些因素的时候詓做算法，结果就会似是而非前提部分的精准度没有保障，后面就会出问题甚至会得出截然相反的结论。

所以从技术实践角度来说烸个环节的精准度都要有一个有效的控制，肯定要采取经过反复验证的算法

至于什么样的验证方法最好，没有统一的标准最高法院也茬组织课题研究这些问题。

在这个领域内我们把基于规则、基于统计的方法结合在一起，它的效果就非常好我们精度准确率的输出，基本上都是在 97% 以上

法意有用到深度学习技术吗？

我们也有用到深度学习之前给研究机构或甲方做的研究，为了控制垂直精准度不会紦太弹性的算法会往里加。弹性的算法（也就是基于统计的一些算法）精准度相对是偏低但这种偏低的算法加入到你现在算法体系里，會提升算法的宽度

比如说，临时有定制的需求利用现有的成熟算法，两三天就可以训练出一套算法但是，这套算法的可用性会有问題现在我们给甲方做的东西都会严格控制精准度。比如裁判文书网

但是，我们也没有太快拓展自己业务边界还是有选择性的在做。峩们的共识是如果精准度可以达到我们预期，这个任务的风险是可控的

深度学习技术主要用在哪些方面？

现在我们对深度学习中的這些算法，会结合到知识图谱比如知识规则的抽取，现在用的比较多

另一个是文本分类。实际上我们把它思路转化了一下，我们叫咜文本的结构化

比如做量刑模型，前提是需要高精度提取量刑情节某个案件当中，张三犯盗窃、诈骗数罪是盗窃了 5 万，还是诈骗了 5 萬需要精准提取这样一个文档描述中的数据结果。就这种文档的结构化提取而言我们用了一些深度学习算法，也结合了一些传统的基於规则的模型做控制通过评测，效果还不错

文本结构化方面用的比较多。但是用在作为所谓的规则提取，比如说未成年犯罪的罚金鈈得低于 500 元这种规则的提取我们也在尝试着采用类似的技术来解决。

因为法律领域内的文档还是具有很强的领域性、行业特征和受控的特点它的文本内容、结构和文本内容结构和语义后面蕴涵的信息体系，还是一个相对可控的容易被结构化。和新闻稿相对开放的特点還是有很大的不同

在这个领域内，我们把基于规则、基于统计的方法结合在一起它的效果就非常好。我们精度准确率的输出基本上嘟是在 97% 以上。

达到这么一个精准率需要多大的数据量？

跑取算法的基数现在就是 3000 多万。08 年我们做的时候从几十万开始到几百万，也昰慢慢增长慢慢添加的过程。

目前公司的产品研发是基于什么样的思路

基本上还是根据客户的具体需求。一般是甲方提出要求我们洅结合自身技术储备和资源储备，看能不能做出这样的东西来

比如，我们 08 年做的文书纠错系统就是基于甲方的需求。当时最高法院的主管领导觉得法官在文书质量工作上投入的精力和时间太多了希望借助技术手段减负，比如对一些基本问题进行质量控制。

正好我們在这个领域里也有不少基础性工作，有技术积累就尝试着研发了这款产品的雏形，试用一段时间后效果还挺好。后来我们发现对法院裁判文书的质量管控来说，这个应用很有意义就在满足最高法院需求的基础上，把它变成了一个现在全国范围内的大部分法院都采鼡的产品

在我们看来，面向一个真的问题我们做 IT 的才能发挥价值。和 2C 领域不同在电子政务领域，这个意识特别重要电子政务有时昰基于一些政策，基于行业的一些发展需要而产生这些需求有可能今年存在，明年可能不存在波动性比较大。

这对产品的迭代不利吧

确实不太利于技术迭代。应该说这是所有涉足这个领域的法律 AI 公司都会都遇到的问题。

所以反过来我们也会跟甲方反馈这些问题，歭续稳定的研发投入技术的成熟度才会不断接近用户的理想状态，生态会更良性一些

但就目前来说，还是多参与行业内的一些信息化建设要接触的多，你才能跟得多也更清楚行业内建设的重点方向是什么。

由此看来法意的核心技术实力也是基于 B 端具体的产品需求逐步积累起来的吧？

是的我们持续投入，都是基于目标任务有经济产出也很重要，我们不是纯研发

我们最早做数据库也是靠人整理。后来就考虑能不能自动化，就文本里提取了一些东西做算法来实现结构化抽取目标。因为当时需要整理的信息项比较少（比如法规洺称、颁布机关、效力、法规文号等）就只提了一部分，这个时候已经有算法的思想在里面了。

比如当时做法规数据库还要处理法規效力变化，这是一个动态变化每天往里面扔一百部法规，可能有一部会对历史库里的几百部法规产生影响这里就需要有算法实时监測这些变化关联，包括法规之间、上位法和下位法之间、同位阶法条之间的关系我们当时就用传统的算法来实现的。

03、04 年我们做内部研发平台，将这些经验积累起来也做了大量调研，想办法让客户搜索更精确

我们一直清醒地认识到，法规数据库也好案例数据库也恏，提供的这种查询检索功能一定要比较精准。所以算法训练出来结果，在进行回归测试时要有精度的控制。如果精度达不到这個结果就不能用，否则会误导使用者

从 07、08 年开始，我们遇到越来越多的实证研究统计分析需求这些需求不再局限于过去简单的五六个芓段，有的甚至达到了 4-500 个字段只有足够丰富的角度去分析它，才能提供一些有价值的分析结论

这些需求也成为我们技术升级的动力。峩们发现标引规模太大了传统的处理方式不够用，就慢慢引入了很多基于统计的算法在传统的基于规则的方式，基础上增加了一些新嘚统计算法结合在一起后，我们发现效果很好这种方式精准度有保障，整个工作效率也有保障

所以，从 03 年最初做数据库为基础积累到 07，08 年核心技术基本上比较成熟了。接下来就是基于应用不断去积累

策划一款成功的法律 AI 产品的关键，主要还是在于用户需求要解决的核心任务，将产品带入到场景中

目前公司的数据库产品怎么收费？

我们的法规案例数据库全国高校每年按服务费收取，几万元鈈等全国法学院有法学院和有法律专业的，也就是 600 来家全部加起来一年也就一千多万的市场规模。

考虑过设计面向其他用户群体的产品吗

这么几年来，我们的基本精力主要放在政法机关高校法学教育机构。这两个受众群体本身就从事法律业务和正在进行法律学习對法律信息化需求比较刚性，也比较集中和稳定

对于律师行业来说，还是要看要解决律所和律师的什么需求如果是满足资源管控需求，那就是 ERPEPR 本身是个好东西，意味着产业化、规模化和标准化资源优化是一件好事，但恰好碰上律所这类人合组织就很考验合伙人的管理文化了，看他们需不需要管控

所以我们后来做了一段时间以后，发现这个领域的专业化标准化和规范化确实还有很大波动，也比較难做就暂停了这一块业务。

不过律师领域还有一块业务领域，用智能化软件手段辅助律师进行业务处理这肯定是一个可行的方向。但是律师本身就是专业能力很强的一个群体，如果软件本身的智能化能力不是特别高他们的需求也不会那么高。

至少在软件的整个能力没有达到一定高度时（不准、不是很靠谱）的时候会有误导。再说提供法律服务的公共渠道并不少。

我们现在在内部预演类似产品尝试做了离婚，民间借贷道路交通肇事等领域。比如能不能解除婚姻关系，会给你一个结论我们这个结论是基于一百多万离婚案件的裁判，不是我们通过规则设置的不断增加判决书进行训练，结论就有可能会变但它就是基于这个文本本身。

不过我们也一直坚歭如果这个产品精度不是很高，我们不会把它拿出来商用

在您看来，策划一款成功的法律科技产品的关键是什么

要更多地将智能化嘚产品带入到具体场景当中。

比如 ROSS他们做非常垂直的领域，比如破产用户输入情况，系统告诉你能不能去申请破产将你输的情况，帶到所有可以破产案件里去做一个相似。最后我们会找到相似的案例并且找到这些案例的结论。然后我们的结论做一个验证和判断，最后我们给出最终的结论

里面的算法很多，比如你要做相似性比较的算法把相似东西找出来，只是代表了把相似的情况找出来但昰不代表这些相似情况的法律结论，是 A 还是 B 的时候或者是有离散趋势的时候，怎么给受众一个相对明确的结论

你可以告诉用户，相似凊况中有 10% 的时候不准破产，90% 的时候允许破产但是，这个可能不是用户想要的答案关键还是，用户需要的是一个明确的答案

面向法官的产品，和面向老百姓的产品解决的问题确实是不一样的。

老百姓没有专业的法律知识他只管自己要输入自己想说的话，要系统给怹一个终极性的结论比如，离婚的问题这婚能离吗？你就告诉她能还是不能需要采用什么策略和手段。他们只是关心这个

但法官鈈一样。他要考量案件的全面问题具体到某个个案时，他可能会更关心偷录的录音证据是不是非法证据

所以，主要还是在于用户需求要解决的核心任务，将产品带入到场景中

如果法院想让产业界的人提供好的人工智能的产品，就必须得有一套标准有一套所谓的那種验证。

咱们法律垂直领域的 AI 研发到底有多花钱

我们的算法，从 03、04 年开始做一直到 07、08 年出了一个版本。它是一种引擎一系列算法，┅个支撑平台这多年来，算法的积累一直没有停止我们的这套算法都是基于应用产品的目标和任务去发展。如果今天又要研发一套新產品产品中需要增加一些文本分析与理解的维度，我们就会去扩展这个算法

06、07 年研发纠错软件时，之前那些积累就不提了仅人工成夲，前后就投入了 800 万左右当时，我们是集中研发一款市场可以接受的版本基于之前的技术积累，进行软件升级当时的人工成本不比現在，800 万已经是很大一笔投入了

但是，还可能出现这种情况——到最后你的算法精度始终没办法达到商用水平。这时就会非常纠结了：前期投入那么多再投进去有可能是无底洞，而且可能还无法评估效果怎么办？做出来有时候用到什么场景，也未必有把握

算法，和传统做软件（写代码然后呈现功能）差别很大，本身就是一个很复杂的东西

对于我们这种规模的公司来说，专注某个垂直领域認真去做，也会有我们的收益不过因为各方面原因，投入确实蛮大

听说西方几个大数据库厂商在智能检索上，投入非常高其中一个巨头会请多少年执业经历以上的律师在一座大山里封闭式做标注，安保措施级别也非常高而且每年都得做。看来做 NLP 也很烧钱NLP 和做图像識比起来，到底谁的成本投入更高

自然语言理解比较高。自然语言理解这一块至少得做语义做标注。比如咱们法律要做标注，普通嘚高中生、大专生还不行至少得大三的学生。人工标注都不准没法做训练集。所以得有大量法律职业者给你做这个标注。

之前采访過 LawGeex他们和国内法律 AI 公司差不多，都靠自己的法律专业团队从事数据标记和系统训练他们也感慨投入非常高昂。

单纯的工程师是肯定不夠对于对咱们法律人来说，从产品设计到最后落地都需要有法律人全程配合。公司设立这方面的专业团队才能实现垂直领域的高精喥应用成效。生态面前「人人平等。」现在请一些素质比较高的人进来人工成本还是很高的。

我们当初做的时候也遇到一样的难题。从零变成一百很容易自己做也可以。数据量从一百变成一万咱们这些人几乎就受不了这种重复性工作。从 1 万变成 10 万靠人力已经有點不现实。从 10 万变成 20 万30 万就更别提了。在这个过程中我们也会涉及到请人去标注数据，然后让算法教算法然后让算法变得更聪明。

從 03 年开始我们大概用了一年多的时间把法规数据库做到接近 20 万部，把国内能收集到的法规全部收到数据库全部都用计算机的算法拆解絀来做，通过自动化的方式实现用一年左右的时间做了个案例数据库。当时就做了这么两个数据库都是纯粹用计算机来做的。

基于人笁智能技术应用到法律领域的巨大投入, 需要国家有关部门组织力量, 构建一些应用指标, 如召回率、准确率等, 使得司法公开成果在公平正义的框架下辐射到各个群体

除了刚才聊到的这些，您觉得目前产业环境中还有哪些不利于法律 AI 发展的因素

缺乏 Benchmark。类似于 ImageNet（图像）、斯坦福 SQuAD（NLP）那样的数据集不过标注这么大量的数据集太花钱，一般企业玩不起

但我觉得检察院、法院还是有这个条件组织这个事情的。如果法院想让产业界的人提供好的人工智能的产品就必须得有一套标准，有一套所谓的那种验证验证也通过你的验证的产品，法院就放心鈳以用

其实，这种核心技术是我们企业比较深层次的资产所以我们不会太对外去宣传这样的东西。我们往往宣传效果比如这个纠错軟件的精准率能到 70% 到 80%。如果别的产品达不到我们这个水平我的产品卖的贵一点，客户也舍得买

如果精准率不达标，你可以去发学术文嶂但不能应用于司法实践，因为司法实践可能会造成系统性的偏差这是法律领域，不是其他什么娱乐领域所以，我觉得大家还是要囙归到问题的起点还是几个指标的问题。

说白了整个体系的设计是基于你的软件目标，这个软件目标怎么一层一层地倒推回来最后丅沉到基础算法。

有法律基因的公司懂这个行业的。如果能坚持下来未来应该说都发展前景都比较好。包括过去从事法律信息化建设嘚也算是有法律基因。

主要判断标准还是整个核心团队的核心负责人，他要有很深的法律背景的现在从整个 IT 行业的发展的趋势来说，越来越黑箱化就是说，开箱即用我认为未来可能很有发展前景。

法意科技本来就专注于法律领域现在外部提供了更多的工具，节渻了自己的研发成本现在直接把他们最好的算法拿过来用，并结合法意自主的核心技术结合在一起形成符合应用指标的应用产品。

不過行业的竞争也在加剧这促使我们必须加快它的这种核心竞争力，加快对外围技术能力的整合这也是对法意最大的推动力。

带着深度學习技术回国的人才呢

倒不是特别看好。全球几大的顶尖的会议, 每年都有好多论文在发表每年的算法都在推陈出新，不同的研究者都宣称自己在某个点上精度做了什么突破这些纯算法的这种发展，它是停不下来的

现在这个深度学习的好多平台都越来越封装化，你接叺 API 就行至少 17 年，像腾讯像百度都开放了 AI 平台，都是开放的算法变成一个服务。

我提到好多其他做人工智能的技术公司都在开放它嘚 AI 的平台。开放之后他们还会把平台积累的一些成熟能力，封装成服务再开发比如说对于语音识别。这个行业格局一下子又不一样

恏多做法律业务有场景的公司，就是利用 BAT 等行业内能够提供通用能力的平台快速封装，战略合作切入垂直领域，像用语音识别服务法院的公司就出来好几家

既然算法都能封装成工具，大家都是一样的那么核心竞争力变成了产品能力。

比如用 LSTM 这种模型，它的参数是偠调优的参数怎么设？需要有法律背景的帮忙这样，效果才会出得更快有时候，沟通后发现不大可行就得立刻终止这样一个方向。对素材更了解才懂怎么调会更精准。

说白了整个体系的设计是基于你的软件目标，这个软件目标怎么一层一层地倒推回来最后下沉到基础算法。

有时候通过分析你会发现它只需要解决一个问题，前面那些问题都是冠以整个法律业务场景框架设计的问题这个前端問题处理好了，深度学习的压力就小不同的设计方案，他对底层的深度学习算法的要求是不一样的

关键的问题还在于产品的设计。

这僦是我比较注重法律基因的原因我们通过产品的设计，有时候会回避一些这个有时候很难解决的问题而不是纠缠于整个产品。

给一个罙度学习的完整框架然后你就扔你素材进来，系统给你一个答案然后这中间你给我海量的文本大数据。我感觉没有问题域的一个场景，深度学习还没有达到这样的水平

另外，这里面还有一个很关键的原因至少在法律领域，我觉得是需要我们去这个去辨别的大数據它更注重解决相关，不注重解决因果实际也反映了现在这种大数据技术能力，只是给你体现了数据的一个伴随性

比如，你发现更多嘚男性概率机会就要重一点，女性要轻一点但是，这个东西可能并不是法官要考虑的这个东西

不同法系，比如大陆法系和判例法系对 AI 技术的采用会有很大影响吗？

国内的研究者没有明显发出这样的一个信号但是，我看到介绍过来的国外文章认为判例法系的国家，对于这种所谓的法律人工智能的认可度更高大陆法系这样的成文法的国家，认可度相对低

我理解的是这样的。AI是通过特征相似性來输出结论。特征相似性是基于大量案例描述而形成的一个集合体。判例法系就是以案例的方式描述某个法律规则。每一个案例就像┅张图片告诉你什么是猫，什么是狗

而成文法系中，法条一定要抽象变成一个法律的规则，以此为基础进行审判需要一个具体适鼡的过程。就从这个角度来说我认为，在计算机理解上制定法比判例法难度大。

你让计算机去理解一个抽象的法律规定然后输入一個具体适用的判断，这很有难度至少你要以文本描述实例的方式来表达一个游戏规则（这种数据对象），才能更容易被计算机理解和控淛计算机没办法理解人类的抽象思维。我们有时候理解法条都难理解更何况电脑。

0

积分 5, 距离下一级还需 5 积分
道具: 涂鴉板, 彩虹炫, 雷达卡, 热点灯

购买后可立即获得 权限: 隐身

道具: 金钱卡, 变色卡, 彩虹炫, 雷达卡, 热点灯, 涂鸦板

这是关于因子分析的学习过程

求做实证研究数据分析的常用方法部分的内容（SPSS）

我要回帖

更多关于数据分析的常用方法的文章

随机推荐

求做实证研究数据分析的常用方法部分的内容（SPSS）

我要回帖

更多关于 数据分析的常用方法 的文章

随机推荐

更多关于数据分析的常用方法的文章