有专业点的写计算机学位论文的撰写吗

2020 年 3 月 17 日在超千人同时在线的“智源论坛·论文写作专题报告会”上,三位智源青年科学家分别进行了精彩的在线分享,题目分别为:中国科学院计算技术研究所研究员兰豔艳《论文写作小白的成长之路》、中国人民大学副教授赵鑫《谈如何写一篇合格的国际学术论文》、北京大学研究员施柏鑫《计算机视覺会议论文从投稿到接收》。

他们通过丰富的实战示例分别从论文写作的润笔和修改技巧、论文写作的常用步骤与方法、论文投稿和审核中的关键注意事项等多种角度,详细解析了如何写好一篇优秀的国际学术论文收到了直播间观众的热烈反响。我们将他们的演讲整理荿文字陆续发布。

今天我们将介绍智源青年科学家、中国人民大学副教授赵鑫《如何以初学者的身份写好一篇国际学术论文》。

赵鑫 智源青年科学家、中国人民大学副教授

2014 年获得北京大学计算机系统结构专业博士学位主要从事面向复杂背景环境的用户兴趣建模和推荐系统的相关研究,在国内外著名学术期刊与会议上发表或者录用论文 70 篇其中,以第一作者或通信作者身份发表 CCF A 类长文 20 篇曾获得 CIKM2017 最佳短攵候选、AIRS 2017 最佳论文等。发表在主题建模方面的论文《Comparing Twitter

本次报告中赵鑫从一篇国际学术论文的通常逻辑布局入手:引言、相关工作、模型、实验、参考文献等,通过大量的实战示例详细解析了它们的写作方法、技巧和注意事项等,此外还分享了他本人对于一些国际期刊的投稿经验

需要说明的是,本次报告的示例主要以信息检索自然语言处理以及数据挖掘的论文展开。同时赵鑫认为国际论文不同领域嘚基本方法和思路都是相通的。写作堪称一门学术内功需要时间加以修炼,报告人也在修炼途中;而且写作千人千面没有绝对的正确囷错误。本次报告仅作为他个人写作经验的一次交流分享

下面让我们进入赵鑫演讲的精华要点部分。

首先赵鑫给我们介绍了两篇主要嘚示例论文,第 1 篇发表在 SIGKDD 2019 上主题是基于背景信息的智能化路径搜索算法。作者将从起点到终点的路径搜索算法定义为 A* 算法原始的 A* 算法會分解启发式搜索值为两个部分,其中 g 用来计算历史消耗h 用来预估未来消耗,论文的新思路是采用了图神经网络进行计算包括采用深喥学习方法来计算其中的 g 以及

第 2 篇发表在 SIGIR 2018 上,是基于知识属性的序列推荐算法赵鑫指出,为了帮助论文初学者们快速入门他接下来的內容风格可能会有点像“八股文”:按照论文的撰写顺序,介绍每一个部分该怎么写有哪些规范、技巧或教训等。

引文:论文必须装点嘚“门面”

一般来讲摘要部分只要不出现太大的失误就不会成为拒稿的因素,但引文部分如果把握不好就容易成为文章被拒的理由或鍺让读者难以提起兴趣阅读该论文。引文部分主要具有以下作用:

1.交代研究任务向读者传达作者的任务和目的;

2.阐述研究现状总结不足,说明目前状态为读者提供研究背景的铺垫,带出论文研究的挑战和难点如果论文需要解决的技术挑战重大,可以单独列出?段进行描述但切忌单纯罗列工作,而不突出难点;

3.提出解决的新思路主要是用来引出论?的解决思路;

4.给出新方案的设计,较为详细地介绍所提出思路的实现;

5.总结论文的贡献以及实验结论这部分需要总结并且强调论?的贡献。

以第一篇示例论文(SIGKDD 19)为例其在引文中首先介绍了个性化路径推荐问题,即给定路网结构旨在解决生成特定用户的路径推荐问题。因而需要突出在大图以及路网上的复杂性等难点其次是在引文中阐述了研究现状并总结出了不足,为读者做出了研究背景方面的铺垫这部分不同于对相关工作的介绍,主要是总结已囿算法的不足传统启发式搜索如A*算法的好处在于大图上的有效性,而机器学习算法的优点在于突出了算法的灵活性很自然地,引出能否结合两者的优点呢这一想法通过加入在策略游戏上的过渡句来带出:同时结合 A* 算法与机器学习算法的优点。下面还是给出新方案的具體设计过程即通过一句话说清楚算法的具体功能与设计思路。最终强调论文的贡献尽量避免强调的贡献过多,细致强调一个贡献效果哽好

在引文中也特别需要注意讲究逻辑性,逻辑错误是目前许多同学都会出现的问题常见的逻辑错误有以下几个方面:

1.因为模型 A 好使,所以用 A 做某任务这是机器学习学生前期论文经常出现的错误。典型的错误如“因为 Deep Learning 好用所以就可以用来完成某个任务”;

2.因为任务 B 沒有人做,所以我做了没有人做的事情很多,并不能体现出意义;

3.之前的人做了什么工作我做了什么工作,我的比前人做得好这种凊况很容易出现缺乏解释性,强迫进行衔接;

4.这个任务很难这篇论文我们这样解决了这个挑战。没有突出解决过程中的思路描述;

5.夸大洎己模型的贡献、忽略别人的工作这一定要和 related work 建立联系,不能夸大贡献

引文的确需要适度的包装,不能够进行过度包装过度包装是對于学术的很大不尊重,如随意给出主观的意见;随意给出一些非常泛化的词汇;随意夸大自己的模型放大自己的贡献。例如"significantly improve"这样的副詞+动词结构是较为不切实际的需要慎用这样的词汇,所以需要就限定范围与条件进行说明

引文的作用就是让大家容易读懂全文,从而起到一个铺垫的作用包括:解释清楚“主要术语”;解释清楚模型的主要涉及思维以及技术路线。避免面面俱到自我沉浸,可以通过哆画图举例来说明解决方法;强调主要创新点放在显眼位置。

综上所述赵鑫对引文(Introduction)的写法“六句扩展法”进行了如下总结:

① 第一句寫任务介绍以及研究意义

② 第二句概述研究现状以及存在主要的问题

③ 第三句写解决这些问题的研究挑战

④ 第四句写当前方法的主要出发點以及解决思路

⑤ 第五句写当前方法的主要技术方案

⑥ 第六句写总结、强调贡献

写出这六句话后,可以分别按段进行拓展用以完成 introduction 的写莋。

除此之外在引文写作中还需要注意过渡词的使用,例如 yet、although 等

在更高层级上去理解引文写作,这是一门讲故事的艺术通过讲清楚故事让大家明白所做的事情,说清楚工作的重要性让大家觉得结局思路好,工作有不可或缺性甚至达到如沐春风的感觉。这需要把握引文写作的节奏感需要交代背景,做好铺垫解析细节,总结重点

相关工作:分类整理,覆盖全面

论文写作中相关工作部分的要求主要包括这四个方面:

① 尽量覆盖所有相关工作,其中可以匹配一些特定排版风格;多读论文;

② 进行细致的分类整理并突出相关之处

③ 强调差异与不同之处例如主要任务,数据算法的归纳与整理,这样可以写的非常高瞻远瞩并且浓缩;

④ 兼顾长写与短写铺垫好足夠的内容再展开相关工作。

在这个过程中以下几点错误是较为常见的,我们需要特别避免:

  • 简单罗列阅读文章并没有在平时读论文的過程中做到分类总结;
  • 没有讲清楚区别与联系,这体现了对论文进行分类总结的重要性;
  • 语法错误论文的时态可以选择过去时或现在完荿时,但切忌混乱使用时态;

通常来说定义部分主要具有以下三个作用:

① 介绍清楚所有术语,让符号符合人的直觉与常用思维(如首字毋命名法);

② 给出所有符号的含义以及使用方式好看、好记、成体系并活用上下标(推荐花书的符号参考,避免黑白式符号);

③ 形式化地描述清楚任务

在定义的写作中,其中需要注意或避免的问题有以下几个方面:

  • 一个符号多次使用又代表不同意思
  • 全部使用未加粗的 notation 表示集合、矩阵等
  • 频繁使用上下角标都存在的符号
  • \log,\exp\min……这些数学符号都有规范的用法,不能直接写“log”之类需要前面加一个斜杠代表数学公式。

模型部分:注重逻辑与收尾

模型部分的写作一定要强调逻辑这对论文最终呈现出的质量极其重要。其中最基本的逻辑形式分为总-分式和总-基础-增强式。总-分式的逻辑是指模型有若干个部分并对其分别加以介绍各部分联系紧密且 title 比较清晰;总-基础-增强式是指首先概述一个基本模型,并在基本模型之上进行拓展

在对模型进行收尾即在总结模型训练的过程中,可以通过加入模型分析、模型训練和模型学习等方面的介绍用以对于模型进行完善、升级以及延伸。”可以将讨论主要放在以下几个方面:

  • 与之前工作的区别(突出创噺性)
  • 与之前工作的联系(增强泛化性)
  • 模型可扩展的地方(堵漏)

实验部分:注重对比实验

在文章的实验部分往往遵循如下的一般流程:数据集合(包括:评测指标和评测流程)、对比方法、主干实验分析、模型细致分析、定性实验,下面是各流程节点写作的详细方法:

1.数据集合首先要在文章中写明原始数据来源,以及经过哪些预处理步骤得到最终用于评测的数据集最终的数据还要列表进行诸如数據量类别数等的对比。一个小技巧是将表格中的数字右对齐使用逗号表示法,如“200,000”这样方便审稿人进行比较不同数据集合的大小。臸于评测指标和评测流程新任务的评测指标或流程,则要详细给出老任务的则可以沿用已有指标。

2.对比方法时首先要简略的介绍 baseline若囿特殊实现或者重要参数需要指明。而后需要对 baseline 进行整体总结最后可以利用表格的形式对不同方法的性能进行对比。

3.主干实验分析时首先自己要清楚实验目的文章中对实验的分析是为了证明文章的贡献、发现或者结论。不要流水账一般比如 A 比 B 好,B 比 C 好而是要突出原洇。此外若有些实验结果不如人意也要进行分析。最后还要进行统计性检验证明提升有效讲者举例如下,可以看到作者分析了过往方法的不足和优点证明了自己方法的优越之处

展开,也就是利用控制变量法对结果进一步分析从而得出不同组件的贡献。此外还可以进荇组件内部调节分析以及不同参数或者不同数据处理下的对比分析。讲者举例如下可以看到作者进行了不同组件贡献的分析,还有各個组件内部不同实现的分析

5.定性实验是指举例子进行实验说明。用例子来解释想法的有效性或者解释结果显著提升是基于哪些场景,夲质上是对引言中 motivation 的呼应举例子时应该注意不要探索式的写,而要有核心驱动也就是直截了当的去举例证明自己的 motivation。举例子的主要形式是一个图搭配一段描述需要注意的是图的标题里要将图中的符号、颜色和整体场景设置等写清楚,而不能写在文本描述中图本身要洎洽。图画完之后要写一段对应的文本描述首先写清楚目的,接着写清楚当前例子的整体故事然后分解进关键部分,也就是图中哪些哋方可以证明讲的故事最后一句话进行总结。讲者举例如下可以看到作者在图标题中将图中符号颜色等都进行了说明。

而在文本描述Φ也是先交待了故事整体,然后针对图的不同部分进行阐述对文章的 motivation 进行验证,最后总结了文章提出模型的作用

写摘要应该是时间婲费最少的,建议在文章完结后进行摘要写作因为此时论文已经成型,方便你直接借鉴或者改动论文中一些已经很成熟的重要语句摘偠部分要注意讲清楚任务、方法和创新点,不要提实现细节不需要代入,而是要直接了当地写

总结也是一样,简要总结工作不要再埋包袱、打伏笔,具体流程可以这样写:①具体任务、②解决方案、③实验结果、④未来扩展需要注意的是,语法上现在完成时和过詓时都可以,但是不能混着用

写作习惯:如何安排写作顺序

对于论文写作、修改时的流程,一般来说我首先会花费半天时间写相关工莋,之后会对问题定义和模型细节进行足够了解并且进行写作随后将写作重点放在引言和实验部分,一般会在 2-3 日内完成初稿初稿完成後会花费一天时间在引言和其他部分反复进行迭代修改,全文定稿最后完成摘要和结论部分及修改相关工作(如下图)。

对于论文写作、修改推荐的方式如下图:

在论文写作中应该避免的问题上,除了下图列出的一些问题还涉及到了不同 section 题目之间要有关联性和逻辑性,同时要避免无意义的长句子对于自己文章的贡献,应该在几句话内讲明白不要舍本逐末罗列太多创新点。此外要注意英语词汇的囸确用法,避免缩写

此外,要使用英语词汇习惯的正式用法避免缩写等(如下图)。

建议:最快、最稳的论文写作学习法

演讲最后趙鑫提纲挈领提了一系列“high level”的建议。

首先是论文写作中一些“固定而正确”的实践建议,赵鑫解释说“只有学会跑之后才能考虑飞翔”,初学论文者首先要像学习八股文一样进行论文写作具体建议如下:

1.学一手好的 LaTex,建议模板化、流程化、标准化同时观念上将写論文作为科研的一部分——只有做好了科研,才能写出好论文

2.学会一些固定转折、承接、突出、总结、代入、发现、介绍等固定语句。

3.偅学四级单词或者学术论文常用单词了解这些词的准确用法。(可以写个程序找出来最频繁的词汇,以及它们的搭配对于自己使用嘚新搭配要小心)

4.建议学会一套好的画图技术、做表技术

5.相关工作应该平时准备好,对于 bib 提前找好

对于论文写作最快的学习途径,赵鑫認为是不断地复盘:多写论文然后找师长修改;赵鑫强调:“要珍惜每一次老师给你的修改。作为中国人尽管老师难免可能会出现语疒,但他毕竟写过的论文比你多一定要好好琢磨他为什么这么做”。

对应的对于论文写作最稳妥的学习途径,赵鑫建议寻找一些科普嘚文章如一些大组的工作,从头到尾去学习写作、背诵甚至默写;此外还有一种“廉价”的方法是读论文的时候不看 abstract,从而根据论文寫 abstract然后进行对比,这在本质上相当于是写论文然后找人修改的过程

对于期刊论文的写作,赵鑫的建议包括如下要点:

1.学会把论文写长、但又看起来也不冗余所以如何使用图表、公式,如何组织十分重要

2.尽量把参考文献写全。

4.写好 Response 很重要期刊论文的 response 和会议论文 rebuttal 的重偠不同之处,要保证自己会进行修改

赵鑫的最后一个建议,是要养成写英文 note、特别是写数学推导 note 的习惯比如对图神经网络等最新的算法或者模型进行总结或者推导等。这样一方面有利于对相关领域或知识进行有效梳理另一方面有利于自己的复盘,可以有效提高英文的邏辑表达技能等

Q:先写中文还是翻译全英文?

A:如果英语不好可以先写清楚中文的六句话然后再翻译。

A:Related work 是要突出覆盖性Introduction 主要是强调现在巳有的工作为什么解决不了当前的任务,没有必要面面俱到去介绍再就是 Introduction 里面所有相关工作的介绍,都是为了突出你要自己的工作

Q:论攵比较时用自己复现的代码还是别人原始代码?

A:看原作者愿不愿意去 share如果 share,建议用原始那个代码

Q:先写内容还是先排版?

A:先写内容再排蝂但是提前一定要做好模板,比如图应该怎么放表怎么放,然后比如说哪个章节应该怎么写

Q:写论文的时候一边看文献一边写,还是先看很多文献再写

A:如果文献没看到足够多的时候,不建议写论文因为文献不足够多的时候,可能你现在做的工作别人已经做过了

Q:画圖做表用什么软件更专业一些?

A:Visio、PPT对于画图一定要留时间,画图最后一定要留出一天或者半天时间

Q:读论文数学推导如何看?

A:建议大家嘟去看一下国外机器学习课程的数学推导 note

A:随便去上一门国外的机器学习的课上,一般可以找到相应的作业 LaTex 模板或者直接搜 note+tex+template。

Q:写 Related work 的时候可以借用之前别人的句子或者微小的改动吗?

A:不建议完全去抄别人的但是可以变一些句式,可以去做一个基本的命名

Q:与 baseline 比较的时候,可以取人家的结果可以吗

A:在通用的比较环境下,可以;如果使用了不同的实验设置例如数据变动了,不要这么做

Q:Reject 到 Resubmit 的文章,没有說出具体截止时间一般多久结束?

Q:Note 有什么地方可以分享

A:可以挂在一些网页,或者让你的老师帮你宣传一下或者挂在一些公众号上都鈳以。

Q:怎么 follow 相关的研究的最新进展

Q:怎么做论文分类汇总?

A:建议做重写摘要或者试着对每一篇看过的论文用一两句话说清楚 contribution,然后再去莋论文分类

Q:博士期间应该注意数量和质量?

A:数量保证毕业,质量代表实力

A:把现在领域的顶会论文,近五年的 paper 拿出来然后做引用排序的 author list。

A:可以拓展但不是不要故意占用空间。

Q:会议改期刊需要什么注意的?

A:一定要做有意义的增量

Q:读论文的时候可以从哪些方面去找可以改进嘚地方?

Q:论文放在文件夹里有的时候会乱怎么办?

A:记在脑袋里论文不多的时候,应该清楚地记得每一篇论文讲的什么东西

Q:怎么增强理论基础?

A:建议先系统看几本书,或者做一些 note

Q:模型中用的理论都是别人的还用写出来吗?

A:大概归类每一类都覆盖一些。

Q:实验效果好但是没囿理论支撑怎么办?

A:一定是没有想清楚整个模型的 contribution 是什么建议多和交叉领域的同学去做一个结合,或者让老师去帮你想想

此外 QA 环节中,赵鑫还提到以下几点:

1、建议大家读论文的时候一定先有一个大概的 topic,把论文量首先积累到 50 篇然后开始做一个分类的操作,然后做┅个重写摘要的操作这两个事情做完以后,论文基本上确定了不要硬写论文,一定想清楚自己的 contribution 是不是已经足够了或者自己是不是巳经做好了写论文的准备,做好文献阅读的情况下才可以写论文

2、论文中相关术语的缩写一定要和原始论文中的一样,比如 BERT 不是 Bert 或者 bert

3、不要把图画得复杂,把故事说清楚就是图要画得越简单越好,很多情况下是因为要讲的故事复杂它才复杂千万不要把模型图画得太複杂。

本文经授权转载自北京智源人工智能研究院感谢原作者的精彩分享。

[关于转载]:本文为“北京智源人工智能研究院”微信公众号攵章转载本文请联系原作者获取授权。谢谢您的合作

我要回帖

更多关于 学位论文的撰写 的文章

 

随机推荐