跳至主要内容

PHPCWS - 开源PHP中文分词扩展

PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。

  PHPCWS 先使用"ICTCLAS 3.0
共享版中文分词算法"的API进行初次分词处理,再使用自行编写的"逆向最大匹配算法"对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。

  ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度
98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan
组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

  ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0
共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。

  由于 ICTCLAS 3.0
共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。

  2、PHPCWS 中文分词在线演示

  演示网址:http://blog.s135.com/demo/phpcws/

  名称:PHPCWS(PHP中文分词扩展)
  协议:New BSD License
  作者:张宴
  网址:http://code.google.com/p/phpcws/
  SVN:http://code.google.com/p/phpcws/source/browse/#svn/trunk/phpcws

--
天天好心情

评论

此博客中的热门博文

20个免费的SEO网站分析工具

  在开发和维护网站的过程中, 网站分析 将对网站的前途起到非常重大的作用。今天暴风彬彬为大家收集了20个用来对自己的网站进行分析的资源或工具,而且它们几乎不用注册甚至下载就可以使用哦。有些可以说是 SEO 必不可少的工具!还等什么,快往下看…   下面要介绍的这20个工具,有些能对你提交的网站进行详尽的分析并作出详细的分析报告,甚至提示如何解决网站存在的一些问题,以达到优化效果;有些工具只是提供一个大体的分析。我相信其中大部分都会对你的SEO工作有所帮助,而且会是你的网站维护起来更有意思 :-D  译者注:您还可以参考以下网站优化相关文章: 《 浅谈网站用户体验UX与SEO的关系 》 《 推荐两个SEO辅助搜索工具 》 《 Google 评价 blog 的指标 》  《 Google 网页排名背后的技术 》  1. Website Grader   Website Grader是我平常比较喜欢使用 SEO分析工具 ,因为它分析得很全面,可用性也很高。通过Website Grader你将得到一个关于你提交的网站的非常详尽的分析报告,报告涉及到了网站的各个部分,比如页面结构、域名信息、标题摘要信息(h1,h2,h3 这些)、Google索引数量和bot最后爬行日期、RSS是否正确、Google/Yahoo/Alexa/MSN上的反向链接数、 Technorati排名、del.icio.us的收藏数、Alexa的排名情况和Google PageRank值。并且还会对提交的网站进行打分及网站出现的问题的修改建议。通常Website Grader所提出来的修改建议是很有价值的,而且能详细的致命问题出在哪,如何才能解决这样的问题。   2. Trifecta   Trifecta是这20个 SEO工具 中比较独特的一个,它以不同的标准分析一个网页、一个博客甚至一个顶级域名下的整个网站,他最终会为你提交的网站总结大致的分数及报告。如果不是会员的话每天可以申请一份分析报告。 3. Spider Simulator   这个分析工具会对你提交的网站进行相对于搜索引擎友好度的分析,并对提交的网站进行评分。主要的评分标准是Meta标签的使用、网页的标题、图片和Alt属性...

十年来浏览器行业没有出现新内核

Opera首席执行官Jon S. von Tetzchner今天表示,就浏览器来说,虽然互联网经历了十年的高速发展期,但浏览器内核本身实际没有实质突破,谷歌Chrome虽然是个新的浏览器,但与苹果Safari一样都是基于WebKit内核,"可以说,十年来浏览器本身没有出现新内核",Jon表示。 作为一家老牌的浏览器厂商,Opera浏览器桌面版市场占有率远远落后于IE和Firefox,但是在移动产品市场中,Opera却处于遥遥领先的地位。IDC今年10月的统计数据显示,Opera mini版全球活跃用户已经超过2100万,同时Opera还通过与老牌游戏机厂商任天堂合作将Opera 浏览器内置到NDSL掌机和热销的Wii游戏机中,Jon表示,"Opera mini 是我们目前最重要的产品之一,今年1到9月Opera mini的用户量增长超过350%,在中国我们也通过与空中网的合作不断提升市场份额"。Opera mini也使用了云计算的概念,在手机上网时,服务器端会进行数据压缩,手机用户上网访问WWW网页会拥有更快的速度和效率。 事实上,Opera是目前全球唯一一家跨平台浏览器厂商,Jon表示,"不管是手机、还是移动设备、还是机顶盒、还是电脑,Opera都可以提供优质快速稳定的浏览器。" 不过Jon也坦陈,"对Oprea来说,我们的营收主要来自三个方面,比较传统的仍然是软件授权预装和桌面版流量点击分成,不过从今年开始,Opera已经开始与T-Mobile等重要运营商开始按照Opera mini的用户活跃度进行合作分成,这是Opera未来的一个巨大增长点。" 1995年末,Jon S. von Tetzchner与Opera总程序设计师Geir Ivars y在挪威成立Opera Software 公司,之前两人供职于挪威最大的运营Televerket ,1995年,Televerket 更名为今天的Telenor。   2008-11-28   洛阳生活信息点评网:http://luo...