命名实体识别(Named Entity Recognition,NER)任务的目标是识别出文本中预定义类别的实体。作为NLP领域的重要基础工具,其有效推动了NLP技术从实验阶段走向实用化。
近期,思必驰语言与知识团队对中文细粒度命名实体识别任务进行探索,并取得阶段性进展:在CLUE数据集Fine-GrainN ER评测任务[1]中,思必驰语言与知识团队目前暂列第一。该评测数据集基于清华大学开源的文本分类数据集THUCTC[2],选出部分进行细粒度命名实体标注。原数据来源于Sina NewsRSS[3]。这项测评是中文自然语言处理领域的大规模赛事,有众多知名企业同台竞技。

中文命名实体评测中的出色表现也证明了思必驰在知识挖掘方向的实力。该技术也将应用到智慧医疗综合应用中,包括从大量医疗文献、病历文本和医患对话数据中构建医疗知识图谱,并基于知识图谱辅助语义理解和知识推理,实现医疗知识问答和医疗辅助决策。如智能导诊、智能预问诊、智能诊后随访。
语言智能常被称为人工智能皇冠上的一颗明珠。在未来,思必驰语言与知识团队将继续深耕语言理解领域,打造出精准、通用且能够实现自定义的命名实体识别系统,推动命名实体识别在NLP各领域的落地和应用。
参考文献:
[1]CLUE-NER公开评测,
https://www.cluebenchmarks.com/introduce.html
[2]THUCTC工具及数据集,
http://thuctc.thunlp.org/
[3]新浪网RSS频道聚合:http://rss.sina.com.cn/