博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
dspace可以检索中文了
阅读量:4169 次
发布时间:2019-05-26

本文共 455 字,大约阅读时间需要 1 分钟。

我估计的没有错,dspace不能检索中文的症结就是在切词分析的那个环节,它默认的是对西方语言的切词做索引,即以空格等标点符号切词的。这对于中文来说是不行的。我的解决办法就是用添加了lucene的contrib包内的cn包即ChineseAnalysizer等类。改写了DSAnalysizer类的toTokenStream()方法即用 ChineseTokenizer类代替了DSTokenizer 并加了中文的StopWord。

现在还要解决的一个问题就是配置文件的问题,对于java的配置文件来说,中文等字符要用unicode转义,这样的话写配置文件就很不方便,总不可能老用工具在转义文件与正常文件之间切换来切换去吧。我想试着解决这个方法,用一个支持中文的Properity的子类来代替Properity.解决方法目前想到了两个:

1,子类的load方法先转化为转义编码,然后在进行Properity的方法调用。

2,完全改写load方法,用Reader代替InputStream ,这样的话可能麻烦一些。

转载地址:http://bwyai.baihongyu.com/

你可能感兴趣的文章
Java语言程序设计与数据结构》编程练习答案(第二十章)(二)
查看>>
2019.2.25
查看>>
2019.2.26
查看>>
2019.2.27
查看>>
2019.2.28
查看>>
2019.2.29
查看>>
聊聊我当年在培训学校做开发的经历
查看>>
用Docker搭建Redis主从复制的集群
查看>>
盘点这些年我出的书,以及由此得到的收获
查看>>
用Python的Pandas和Matplotlib绘制股票KDJ指标线
查看>>
面试必问:对java多线程里Synchronized的思考
查看>>
最近接了本分布式组件面试书的选题,请大家一起来提意见
查看>>
Redis整合MySQL和MyCAT分库组件(来源是我的新书)
查看>>
Java程序员普遍存在的面试问题以及应对之道(新书第一章节摘录)
查看>>
程序员高效出书避坑和实践指南
查看>>
计算机方面毕业生怎样写简历
查看>>
从软件公司的异同点讲起,聊聊未来的程序员该如何选公司和谋规划
查看>>
我不想安于当前的限度,以达到所谓的幸福,回顾下2020年的我
查看>>
如何在面试中介绍自己的项目经验(面向java改进版)
查看>>
通过写n本书的积累,我似乎找到了写好技术文章的方法(回复送我写的python股票电子书)
查看>>