solve的正确使用方法(solr8.9.0系列一)

最近一个项目需要使用全文检索,研究了一下,遇到很多坑,特此详细记录一下,该系列包括基于jetty、tomcat、weblogic下的安装,文本内容、word/pdf/excel/html的索引配置使用,后续会将使用springboot的前台展现项目进行开源供大家学习

1、下载SOLR

下载地址:https://solr.apache.org/downloads.html

其它版本下载地址:http://archive.apache.org/dist/lucene/solr/

2、运行

解压后进入solr-8.9.0\bin目录,在cmd中运行solr start,访问http://localhost:8983/出现solr管理界面即安装成功。

solve的正确使用方法(solr8.9.0系列一)(1)

3、创建核心

1、在bin目录下执行solr create -c meta_db,然后在solr-8.9.0\server\solr目录下会建立meta_db目录,目录下自动生成以下文件

solve的正确使用方法(solr8.9.0系列一)(2)

4、导入jar包

将solr-8.9.0\dist下2个jar包

solve的正确使用方法(solr8.9.0系列一)(3)

odbc数据源包拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下

solve的正确使用方法(solr8.9.0系列一)(4)

2、也可在core的solrconfig.xml里配置

<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />

5、中文分词器安装配置

https://github.com/magese/ik-analyzer-solr

拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下

solve的正确使用方法(solr8.9.0系列一)(5)

将resources目录下的5个配置文件放入solr服务的solr-8.9.0\server\solr-webapp\webapp\WEB-INF\classes目录下;

solve的正确使用方法(solr8.9.0系列一)(6)

将下面代码加到F:\solr-8.9.0\server\solr\meat_db\conf\managed-schema里

<!-- ik分词器 --> <fieldType name="text_ik" class="solr.TextField"> <analyzer type="index"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> <analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/> <filter class="solr.LowerCaseFilterFactory"/> </analyzer> </fieldType>

说明:当 useSmart=”false”,分词粒度较小,分词后个数多;当 useSmart=”true”,分词粒度大,分词后个数据少。

选择Analysis 输入要搜索的中文 选择FieldType为text_ik 可以发现分词成功

solve的正确使用方法(solr8.9.0系列一)(7)

6、配置oracle数据表文件

找到要配置的solr-8.9.0\server\solr\meat_db\conf文件夹中,新建db-data-config.xml

solve的正确使用方法(solr8.9.0系列一)(8)

进入文件中,配置要导入的数据库和表sql语句

<dataConfig> <dataSource name="source1" type="JdbcDataSource" driver="oracle.jdbc.driver.OracleDriver" url="jdbc:oracle:thin:@127.0.0.1:1521/orcl" user="test" password="test"/> <!-- sql 编写 --> <!-- entity属性: name:实体名称 dataSource:数据源名称 pk:实体主键,增量导入时使用 query:全量同步SQL deltaQuery:增量导入时查询需要导入的数据的主键 deltaImportQuery:增量导入查询SQL,根据deltaQuery查询出的id查询数据 deletedPkQuery:增量导入时会删除solr中根据该SQL查询出来的id对应的数据 增量同步原理:首先保障数据库表里面有个记录时间的字段,每次添加或者修改后记录时间;solr每次同步数后会记录同步时间:last_index_time, 然后SQL语句里面就可以添加查询条件 :last_modify_date >= '${dih.last_index_time}',表里面更新时间大于solr的更新时间,说明数据被更新了或者是新增的数据; last_modify_date:这个是表里面记录更新、插入时间的字段; --> <!-- 以下为自定义配置--> <document> <entity name="share" transformer="ClobTransformer" dataSource="source1" pk="RECID" query="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.DOCpubtime,cnd.docreltime,cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10" deltaImportQuery="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.docpubtime,cnd.docreltime, cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.DOCSTATUS=10 and cnd.recid = '${dih.delta.RECID}'" deltaQuery="select recid from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10 and doc.OPERTIME > to_date('${dih.last_index_time}','yyyy-mm-dd hh24:mi:ss')" deletedPkQuery="select recid from chnldocinfo where docstatus!=10"> <field column="RECID" name="recid" /> <field column="CHNLID" name="chnlid" /> <field column="DOCID" name="docid" /> <field column="MODAL" name="modal" /> <field column="DOCSTATUS" name="docstatus" /> <field column="DOCPUBURL" name="docpuburl" /> <field column="DOCPUBTIME" name="docpubtime" /> <field column="DOCRELTIME" name="docreltime" /> <field column="SITEID" name="siteid" /> <field column="DOCCHANNEL" name="docchannel" /> <field column="DOCTITLE" name="doctitle" /> <field column="DOCCONTENT" name="doccontent" clob="true"/> <field column="OPERTIME" name="opertime" /> </entity> </document> </dataConfig>

注意大写字段的地方,测试了好久才发现大小写对oracle增量发布有影响

配置solrconfig.xml导入的Handler

<!-- 以下为自定义配置--> <requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler"> <lst name="defaults"> <str name="config">db-data-config.xml</str> </lst> </requestHandler>

配置映射文件,进入db-data-config.xml同目录,找到managed-schema

<!-- 定义文档字段 name:字段名称;type:分词类型;indexed:是否进行索引;stored:是否进行储存,需要进行显示一般需要储存; required:字段是否可为空;multiValued:是否有多个值 --> <field name="recid" type="string" uninvertible="false" indexed="true" required="true" stored="true"/> <field name="chnlid" type="strings" stored="false" required="false" multiValued="false"/> <field name="docid" type="strings" stored="false" required="false" multiValued="false"/> <field name="modal" type="strings" stored="false" required="false" multiValued="false"/> <field name="docstatus" type="strings" stored="true" required="false" multiValued="false"/> <field name="docpuburl" type="strings" stored="true" required="false" multiValued="false"/> <field name="docpubtime" type="strings" stored="true" required="false" multiValued="false"/> <field name="docreltime" type="strings" stored="true" required="false" multiValued="false"/> <field name="siteid" type="strings" stored="false" required="false" multiValued="false"/> <field name="docchannel" type="strings" stored="true" required="false" multiValued="false"/> <field name="doctitle" type="text_ik" stored="true" required="false" multiValued="false"/> <field name="doccontent" type="text_ik" stored="true" required="false" multiValued="false"/> <field name="opertime" type="strings" stored="true" required="false" multiValued="false"/> <!-- 索引复制,联合索引 --> <field name="keyword" type="text_ik" indexed="true" stored="true" omitNorms="true" multiValued="true"/> <copyField source="doctitle" dest="keyword" maxChars="30000"/> <copyField source="doccontent" dest="keyword" maxChars="30000"/>

配置完成,进入solr管理界面查看:

选择要配置的core,点击dataimport,选择entity,execute,刷新,导入完成,完事!

solve的正确使用方法(solr8.9.0系列一)(9)

7、浏览器地址

在浏览器直接输入网站 : http://localhost:8983/solr/meta_db/dataimport?command=delta-import^&clean=false^&commit=true

SOLR在浏览器中输入命令:

1、全导入:

http://localhost:8983/solr/meta_db/dataimport?command=full-import&commit=true

2、增量导入:

http://localhost:8983/solr/meta_db/dataimport?command=delta-import&clean=false&commit=true

3、查看导入状态

http://localhost:8983/solr/meta_db/dataimport?command=status

浏览器地址可用作定时任务执行调用的地址

8、开启基本身份验证

新建配置文件security.json,放到目录solr-8.9.0\server\solr下,就是和solr.xml同级

{ "authentication": 【1】 { "blockUnknown": true, 【2】 "class": "solr.BasicAuthPlugin", "credentials": 【3】 { "solr": "IV0EHq1OnNrj6gvRCwvFwTrZ1 z1oBbnQdiVC3otuq0= Ndd7LKvVBAaZIF0QAVi1ekCfAJXr1GGfLtRUXhgrF8c=" } }, "authorization": { "class": "solr.RuleBasedAuthorizationPlugin", "permissions": [ 【4】 { "name": "security-edit", "role": "admin" }], "user-role": 【5】 { "solr": "admin" } } }

在这个文件中定义了几个东西,以下的解释对应于上述的序号:

启用基本身份验证和基于规则的授权插件。 参数 "blockUnknown": true 表示不允许未经身份验证的请求通过。 已定义了一个名为 "solr" 的用户,其中有密码 "SolrRocks"。 "admin" 角色已定义,并且具有编辑安全设置的权限。 "solr" 用户已被定义为 "admin" 角色。 这里配置了用户名密码是:solr SolrRocks

solve的正确使用方法(solr8.9.0系列一)(10)

10、开启IP访问限制

solr8.9.0使用的是jetty容器,需要在solr-8.9.0\server\etc\jetty.xml里进行配置

找到节点

solve的正确使用方法(solr8.9.0系列一)(11)

在下面添加白名单IP配置

<!-- Restricting IP addresses for Jetty and Solr --> <Item> <New id="IPAccessHandler" class="org.eclipse.jetty.server.handler.IPAccessHandler"> <Set name="white"> <Array type="String"> <Item>127.0.0.1</Item> </Array> </Set> <Set name="whiteListByPath">false</Set> <Set name="handler"> <Ref refid="Contexts"/> </Set> </New> </Item> <!-- Restricting IP addresses for Jetty and Solr -->

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页