标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)

事实上,一个标注良好的数据集对模型的准确度非常重要,而在实际应用中,我们时常会发现语料往往存在这样或者那样的问题

一旦语料存在问题,那么任何算法都不可能取得好的结果,因为“老师教的本身就有问题”

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(1)

所以对于人工智能来讲,良好的标注是项目成功的基础。下面我们就总结了一些文本标注的基础知识点及常用工具,希望对正在学习的你有所帮助

文本标注的一般流程

文本数据标注任务可分为实体标注、关系标注、事件抽取、文本分类等基础标注,不同的标注任务所需要经历的标注细节存在差异,但大致流程是相通的,分为预处理、标注(线上标注、线下标注)、质检、验收,数据处理和数据交付。具体到各个步骤,操作细节如下:

(1)预处理:根据数据的规范要求,对数据进行算法的初步处理;

(2)标注:根据项目要求,可以将标注分为线上标注(数据 平台)和线下标注;

①线上标注:将源数据上传到“数据 平台”,通过互联网进行操作

②线下标注:通过线下小工具或线下文本(TXT、Excel等)进行操作

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(2)

(3)质检:根据数据合格率要求,由理解定义规范的人员对已标注数据进行抽查

(4)验收:由数据质量中心对质检合格数据进行再次验证

(5)数据处理:利用技术处理成客户需要的格式(如JSON、UTF-8文本或Excel等)

(6)数据交付:数据加密后交付客户

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(3)

需要注意的是

·在做标注时一定要注意标注规范与形式的要求,其中标注规范中约定了标注的规范,标注的对象,标记,输入与输出格式

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(4)

例如分类任务中的标签名称,实体标注中的实体类型以及实体名称,关系标注中的关系类型与标识等。除了这些原始信息,还需要专门的标注依据,如实体颗粒度的把控,文本分类类型的判定依据等。此外,还需要包括一些具体的特殊例子进行说明

·标注任务提交后,一定要及时查看质检进度,对标注结果进行收集,如出现漏标、错标等情况,及时完成返工后再次提交

文本标注的开源工具

当前,已经陆续开源出来一些高质量的开源工具,老刘从实际的标注经验出发,重点推荐以下几个

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(5)

YEDDA/SUTDAnnotator

YEDDA是一个针对实体类的开源文本注释工具,提供了序列标记的标注功能,是一个轻量级且高效的文本边界(span)注释的开源工具,支持键盘快捷键标注,用户只需选中文本并按快捷键如A,就会自动标注。

标注结果参考brat,用.ann文件来保存,可以直接导出序列后的标注结果,十分方便。

推荐:适合做个人实验的轻量级实体标注。

地址:https://github.com/jiesutd/YEDDA

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(6)

Chinese-Annotator

Chinese Annotator是一款智能中文文本标注工具,每一次的标注只需要用户解决一个case的问题。以文本分类为例,对于算法给出的分类结果,只需要点击“正确”提供正样本,“错误”提供负样本,“略过”将不相关的信息滤除,“Redo”让用户撤回操作,四个功能键以最简模式让用户进行标注操作。

推荐:适合做文本分类标注

地址:https://github.com/crownpku/Chinese-Annotator

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(7)

Brat

Brat(brat rapid annotation tool的递归缩写)是一款功能较全面的文本标注工具,可以标注实体,事件、关系、属性等,在标注实体的同时可以进行关系的标注,这使得其成为实体抽取、关系抽取和事件抽取的首选。

BRAT服务器是一个Python程序,默认情况使用Ubuntu操作系统,网页测览器使用谷歌浏览器。

不过,brat本身是不支持中文的,如果在配置文件里定义中文会报错,

推荐:功能最全,学术界用的较多

地址:https://github.com/nlplab/brat

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(8)

doccano

doccano是一个以Django为web框架,以Node.js为前端框架开发形成的开源文本标注工具,提供了文本分类、序列标记以及序列到序列任务的标注功能,因此可以分为支持情感分析、命名实体识别、文本摘要等标注任务创建带标签的数据。

推荐:除实体关系、事件要素、事件关系不能标之外均可。

地址:https://github.com/doccano

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(9)

Marktool

MarkTool是一款基于web的开源通用文本标注工具,支持大规模实体标注、关系标注、事件标注、文本分类、基于字典匹配和正则匹配的自动标注以及用于实现归一化的标准名标注,同时也支持文本的迭代标注和实体的嵌套标注。

推荐:持续维护,功能最全,五星。

地址:https://github.com/chosendai/MarkTool

总结

训练数据是模型实现效果的关键,如何在保证标注任务快速完成的前提下,保证高质量的水准,是作为底层数据处理人员十分关注的问题

本文围绕文本标注问题,就标注的重要性、文本标注的一般流程进行了介绍,并为大家推荐了几个常用的标注工具,以便大家在工作中根据实际情况进行选择

标注的技巧与方法(标注基础知识文本标注的一般流程及常用的数据标注工具)(10)

有人在后台留言问小编,怎么才能提高数据标注员的能力,其实从职业技能来看,不仅是要精通训练模型,还要掌握基础的数据清洗,数据标注能力,通过提升自己的对AI基础数据行业的理解,才能在工作中不断提升,对今后的工作有所帮助

总而言之,无论是文本标注还是语音标注亦或者是其他的标注,都是一个大工程,是当前深度学习模型时代基础的基础,我们需要也必须关注这些底层的数据能力

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页