
Ultra-NLP是神州泰岳人工智能研究院研发的集机器学习、统计学习、深度学习以及概念语义理解技术于一体的自然语言处理技术平台。该平台致力于打造一个业界持续领先的、完备的自然语言处理体系,以期快速、有效地解决自然语言处理领域中普遍存在的歧义理解、精准分类、高纯度聚类、精确信息提取、关联信息挖掘等难点、痛点问题。平台实现文本的语义理解和语义量化计算,提供高效的自然语言理解相关分析算法,包括自动分词、实体识别、句法分析、文本分类、聚类、主题分析、歧义理解、自动摘要、关联挖掘等。
Ultra-NLP整体能力可分为词语、句子和篇章三个层面:
(1)词语层面:使用HMM、CRF等统计学习技术实现精准的自动分词和发现新词的能力。利用概念语义网络模型,能够符号化的表示词汇的语义,自动识别词语的一词多义和多词一义歧义现象,解决让机器掌握词汇的语义,并能正确提取句子中蕴含的关联性:同义、上下位、包含关系等。
(2)句子层面:利用语义网络来自动识别句子中各概念间的语义关系,实现句子语义的归一化处理,结合基于依存、n-gram、短语语法等语义理解技术实现的文法分析以及句子结构分析,精确识别句子变形,深层理解句子表达语义。
(3)篇章层面:结合机器学习、深度学习以及概念语义网络模型,正确分析篇章中上下文语境特征,实现分类、聚类、关键信息提取以及句群的切分与合并等篇章级分析能力。

Ultra-NLP优势
语义处理技术具备领先性
Ultra-NLP是神州泰岳人工智能研究院多年的科研成果,提供领先业界的中文文本分析处理技术。源于中国传统语言学(训诂学—义)、人工智能、认知学、物理学、信号处理、哲学等跨学科的知识(文字学—形;音韵学—音),突破计算语言学界源于图灵标准而采用的句法分析和语法分析标准,解决中文并没有所谓主谓宾语法的问题。
丰富的行业应用经验
Ultra-NLP已经在中国工商银行、中国银行、新华社等行业领先机构得到过广泛应用,上线产品均得到业界一致好评。丰富的行业应用经验有效的保证了产品成熟度。
先进的模型设计
Ultra-NLP配合基于本体模型实现的DINFO-OEC非结构化数据分析挖掘平台,对于语义分析功能可以提供更好的模型建设和算法配置能力,实现高效便捷的非结构化文本语义分析。
提供分布式计算能力
Ultra-NLP引入Spark分布式计算框架,实现了算法的分布式计算能力,解决传统算法单机运行的瓶颈,大大提高算法的可用性和效率。
复杂模型计算能力
Ultra-NLP集成Tensorflow深度学习框架,满足对大规模语料学习与复杂模型计算能力的需求。
场景化分析能力
Ultra-NLP自主设计组合不同处理类型算法,构建能够直接处理业务场景数据的NLP流程化的场景化算法,提供场景化的分析能力。
个性化算法自定制
Ultra-NLP提供灵活、易操作的Pipeline算法管道,支持用户结合具体业务场景需求,自主定制个性化的NLP流程,实现个性化的场景化算法。
Ultra-NLP平台V1.0主要功能

分词标注
- 提供最大切割、最短路径和CRF新词发现三种分词算法
- 提供HMM分词模型的训练和替换能力
- 提供CRF分词模型的替换能力
- 支持用户自定义分词词典
实体识别
- 提供命名实体识别能力
- 提供自定义实体识别能力
- 支持CRF实体模型替换
- 支持用户自定义实体词典
句法分析
- 提供短语语法分析能力
- 支持PCFG和factored两种句法模型的训
依存文法
- 提供依存文法分析能力
- 提供N元文法分析能力
- 依存文法支持ME模型训练和替换
- 依存文法支持CRF模型替换
特征转换
- 提供文本特征转换为数值编码的能力
特征选择
- 提供卡方验证的特征选择方法,支持设置TopN特征数量
- 提供TF-IDF的特征选择方法,支持设置TopN特征数量
特征抽取
- 提供TF-IDF特征抽取方法,支持minDF最小文档频度设置
- 提供HashTF特征抽取方法,支持minDF最小文档频度设置
- 提供CountVectorizer特征抽取方法,支持minDF最小文档频度设置
分类
- 提供LinearSVM分类算法能力,支持分类模型的训练、保存和加载
- 提供朴素贝叶斯分类算法能力,支持分类模型的训练、保存和加载
- 提供随机森林分类算法能力,支持分类模型的训练、保存和加载
- 提供逻辑回归分类算法能力,支持分类模型的训练、保存和加载
场景化分类算法
设计组合场景化的分类流程,优化流程内部各算法参数,提供效果较好的Pipeline类型的场景化分类算法(分类流程:分词->向量转换->特征选择->权重计算->分类器)
- 提供LinearSVM分类Pipeline能力,开放测试准确率93%,支持分类Pipeline模型的训练、保存和加载
- 提供朴素贝叶斯分类Pipeline能力,开放测试准确率90%,支持分类Pipeline模型的训练、保存和加载
- 提供随机森林分类Pipeline能力,开放测试准确率87%,支持分类Pipeline模型的训练、保存和加载
- 提供逻辑回归分类Pipeline能力,开放测试准确率92%,支持分类Pipeline模型的训练、保存和加载
- 支持接收参数集合,调整Pipeline中任意步骤可调的参数
文本相似计算
- 提供余弦相似计算方法
- 提供海明距离计算方法
关联计算
- 提供基于word2vec的关联词汇推荐能力
验证方法
- 提供数据拆分的方法
- 提供封闭验证的方法
- 提供交叉验证的方法
- 提供网格寻优的方法
Pipeline基类
- 提供装载transformer和estimator的能力,如分词器、特征选择、分类器等
- 支持添加、删除、替换transformer或estimator
- 支持接收参数集调整其中任意transformer或estimator可调参数值