标签:
Jcseg是基于mmseg算法的一个轻量级Java中文分词器,同时集成了关键字提取,关键短语提取,关键句子提取和文章自动摘要等功能,并且提供了一个基于Jetty的web服务器,方便各大语言直接http调用,同时提供了最新版本的lucene,solr和elasticsearch的搜索分词接口!
Jcseg核心功能:
中文分词:mmseg算法 + Jcseg 独创的优化算法,七种切分模式。
关键字提取:基于textRank算法。
关键短语提取:基于textRank算法。
关键句子提取:基于textRank算法。
文章自动摘要:基于BM25+textRank算法。
自动词性标注:基于词库+(统计歧义去除计划),目前效果不是很理想,对词性标注结果要求较高的应用不建议使用。
命名实体标注:基于词库+(统计歧义去除计划),电子邮件,网址,大陆手机号码,地名,人名,货币,datetime时间,长度,面积,距离单位等。
Restful api:嵌入jetty提供了一个绝对高性能的server模块,包含全部功能的http接口,标准化json输出格式,方便各种语言客户端直接调用。
Jcseg中文分词:
七种切分模式:
简易模式:FMM算法,适合速度要求场合。
复杂模式:MMSEG四种过滤算法,具有较高的歧义去除,分词准确率达到了98.41%。
检测模式:只返回词库中已有的词条,很适合某些应用场合。
最多模式:细粒度切分,专为检索而生,除了中文处理外(不具备中文的人名,数字识别等智能功能)其他与复杂模式一致(英文,组合词等)。
分隔符模式:按照给定的字符切分词条,默认是空格,特定场合的应用。
NLP模式:继承自复杂模式,更改了数字,单位等词条的组合方式,增加电子邮件,大陆手机号码,网址,人名,地名,货币等以及无限种自定义实体的识别与返回。
n-gram模式:CJK和拉丁系字符的通用n-gram切分实现。
分词功能特性:
支持自定义词库。在lexicon文件夹下,可以随便添加/删除/更改词库和词库内容,并且对词库进行了分类。
支持词库多目录加载. 配置lexicon.path中使用';'隔开多个词库目录.
词库分为简体/繁体/简繁体混合词库: 可以专门适用于简体切分, 繁体切分, 简繁体混合切分, 并且可以利用下面提到的同义词实现,简繁体的相互检索, Jcseg同时提供了词库两个简单的词库管理工具来进行简繁体的转换和词库的合并。
中英文同义词追加/同义词匹配 + 中文词条拼音追加.词库整合了《现代汉语词典》和cc-cedict辞典中的词条,并且依据cc-cedict词典为词条标上了拼音,依据《中华同义词词典》为词条标上了同义词(尚未完成)。更改jcseg.properties配置文档可以在分词的时候加入拼音和同义词到分词结果中。
中文数字和中文分数识别,例如:"一百五十个人都来了,四十分之一的人。"中的"一百五十"和"四十分之一"。并且 Jcseg会自动将其转换为阿拉伯数字加入到分词结果中。如:150, 1/40。
支持中英混合词和英中混合词的识别(维护词库可以识别任何一种组合)。例如:B超, x射线, 卡拉ok, 奇都KTV, 哆啦a梦。
支持英文的类中文切分,同样使用mmseg算法来消除歧义,例如:“openarkcompiler”会被切分成:“open ark compiler”,该功能也可以被关闭。
更好的拉丁支持,电子邮件,域名,小数,分数,百分数,字母和标点组合词(例如C++, c#)的识别。
自定义切分保留标点. 例如: 保留&, 就可以识别k&r这种复杂词条。
复杂英文切分结果的二次切分: 可以保留原组合,同时可以避免复杂切分带来的检索命中率下降的情况,例如QQ2013会被切分成: qq2013/ qq/ 2013, chenxin619315@gmail.com会被切分成: chenxin619315@gmail.com/ chenxin/ 619315/ gmail/ com。
支持阿拉伯数字/小数/中文数字基本单字单位的识别,例如2012年,1.75米,38.6℃,五折,并且 Jcseg会将其转换为“5折”加入分词结果中。
智能圆角半角, 英文大小写转换。
特殊字母识别:例如:Ⅰ,Ⅱ;特殊数字识别:例如:①,⑩。
配对标点内容提取:例如:最好的Java书《java编程思想》,‘畅想杯黑客技术大赛’,被《,‘,“,『标点标记的内容。(1.6.8版开始支持)。
智能中文人名/外文翻译人名识别。中文人名识别正确率达94%以上。(中文人名可以维护lex-lname.lex,lex-dname-1.lex,lex-dname-2.lex来提高准确率),(引入规则和词性后会达到98%以上的识别正确率)。
自动中英文停止词过滤功能(需要在jcseg.properties中开启该选项,lex-stopwords.lex为停止词词库)。
词库更新自动加载功能, 开启一个守护线程定时的检测词库的更新并且加载(注意需要有对应词库目录下的的lex-autoload.todo文件的写入权限)。
自动词性标注(目前基于词库)。
自动实体的识别,默认支持:电子邮件,网址,大陆手机号码,地名,人名,货币等;词库中可以自定义各种实体并且再切分中返回。
1:该下载地址为九点软件园本地下载地址,java中文分词下载包预览图如下:
2:下载包的正确包名:jcseg2.6.2_9a9m.com.zip
e4a破解版下载-易安卓E4A(含破解补丁) V6.9破解版下载446M2679人在玩易安卓E4A是九点小编为大家推荐的一款非常好用并基于谷歌Simple语言、专为安卓系统开发应用打造的编程辅助工具软件,让安卓开发无限简单,可以说是安卓版本的易语言程序。
下载火山编程破解版下载-火山软件开发平台 V2.0绿色破解版下载1.2GB1769人在玩火山软件开发平台是九点小编为编程开发用户分享的全新专业且深受诸多用户们喜爱的软件开发编程工具应用,是一种目的硬件设备无关、目的软件环境无关、易学易用实用、完全本地化的软件快速开发平台,有着极高流畅度的专业型迅速软件软件开发平台
下载易语言5.9破解版下载-易语言 V5.9完美破解版下载313.71MB1049人在玩易语言是九点小编为大家推荐的一款转为国人而设计的编程软件,由大连大有吴涛易语言软件开发有限公司推出,通过对易语言的学习,即便用户的英语水平不够好也能够轻松进行编程操作,让那些想编程且又不会英文的朋友们,提供了一条快速进入Windows程序编程的大门,支持基于汉语字、词编程的、全可视化的、跨主流操作系统平台的编程工具。
下载appinventor下载-App Inventor安卓编程软件V2023最新版下载310M1007人在玩App Inventor是九点小编为程序员们推荐的一种基于Web的开发环境,用于创建Android应用程序。它是由麻省理工学院(MIT)开发的,旨在使移动应用程序开发变得更加易于学习和使用。
下载米思齐编程软件下载-Mixly(米思齐图形化编程工具) v2.0 RC4官方版下载263.2M737人在玩Mixly For Arduino(米思齐图形化编程工具)windows版,基于Google的Blockly图形化编程框架开发,目的是为了配合Arduino UNO开发板套件使用,实现Arduino程序的图像化编程,Mixly自带Java8运行环境,用户直接双击mixly.vbs即可使用。
下载oracle 客户端下载-Oracle 11G客户端(32/64位) v11.2.0.4.0免费版下载1.95G555人在玩oracle11g客户端 是从 Oralce 11gR2 的官方客户端安装包中而来的 Oracle 数据库客户端,专为企业设计,轻松运行大量数据库除了可以连接远程数据库以外,还包含 SQL Plus、JDBC Driver、ODBC Driver、Pro*C SDK、Net Configuration Assistant、Net Manager 等。
下载navicat15破解版下载-Navicat 15 绿色版下载115MB500人在玩Navicat 15是九点小编为大家推荐的一款功能强大的数据库管理软件,软件采用可视化操作方式,无需任何代码即可轻松完成数据库的增删改查、备份等操作,可以帮助用户更好的管理数据库。
下载jdk1.832位下载-Java jdk1.8(32/64)官方版下载340M483人在玩Java JDK是九点小编为大家推荐的一款适用于开发人员必备的一款环境开发软件,这款软件用于构建应用程序、applet程序以及java编程语言的组成部分。九点软件园为大家带来的是JDK1.8版本,下面为大家分享一下安装方法以及下载地址吧!
下载access2007官方下载-Access2007绿色独立版下载44MB406人在玩Access2007绿色独立版是九点小编为大家分享的一款从office软件包中提取出来的独立版的数据库软件,使用办公软件套件,可以方便用户在电脑中读取使用数据库,欢迎有需要的用户前来九点软件园分享的地址来获取这款Access2007绿色独立版,希望大家会喜欢!
下载jdk-8u201-windows-x64.exe下载-jdk-8u121-windows-x64(java se开发工具包) 下载194MB330人在玩jdk-8u121-windows-x64 ,最新的JDK 8u121 发布了,Java SE 8u121包括重要的安全修复。Oracle强烈建议所有Java SE 8用户升级到此版本,JDK 8u121包含 2016i 版本的IANA时区数据,还包含一些安全问题的修复,有需要的赶快下载吧!
下载