solve的正确使用方法(solr8.9.0系列一)
最近一个项目需要使用全文检索,研究了一下,遇到很多坑,特此详细记录一下,该系列包括基于jetty、tomcat、weblogic下的安装,文本内容、word/pdf/excel/html的索引配置使用,后续会将使用springboot的前台展现项目进行开源供大家学习
1、下载SOLR下载地址:https://solr.apache.org/downloads.html
其它版本下载地址:http://archive.apache.org/dist/lucene/solr/
2、运行解压后进入solr-8.9.0\bin目录,在cmd中运行solr start,访问http://localhost:8983/出现solr管理界面即安装成功。
3、创建核心
1、在bin目录下执行solr create -c meta_db,然后在solr-8.9.0\server\solr目录下会建立meta_db目录,目录下自动生成以下文件
4、导入jar包
将solr-8.9.0\dist下2个jar包
和odbc数据源包拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下
2、也可在core的solrconfig.xml里配置
<lib dir="${solr.install.dir:../../../..}/dist/" regex="solr-dataimporthandler-.*\.jar" />
https://github.com/magese/ik-analyzer-solr
拷贝到solr-8.9.0\server\solr-webapp\webapp\WEB-INF\lib目录下
将resources目录下的5个配置文件放入solr服务的solr-8.9.0\server\solr-webapp\webapp\WEB-INF\classes目录下;
将下面代码加到F:\solr-8.9.0\server\solr\meat_db\conf\managed-schema里
<!-- ik分词器 -->
<fieldType name="text_ik" class="solr.TextField">
<analyzer type="index">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="false" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
<analyzer type="query">
<tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory" useSmart="true" conf="ik.conf"/>
<filter class="solr.LowerCaseFilterFactory"/>
</analyzer>
</fieldType>
说明:当 useSmart=”false”,分词粒度较小,分词后个数多;当 useSmart=”true”,分词粒度大,分词后个数据少。
选择Analysis 输入要搜索的中文 选择FieldType为text_ik 可以发现分词成功
6、配置oracle数据表文件
找到要配置的solr-8.9.0\server\solr\meat_db\conf文件夹中,新建db-data-config.xml
进入文件中,配置要导入的数据库和表sql语句
<dataConfig>
<dataSource name="source1" type="JdbcDataSource" driver="oracle.jdbc.driver.OracleDriver"
url="jdbc:oracle:thin:@127.0.0.1:1521/orcl" user="test" password="test"/>
<!-- sql 编写 -->
<!--
entity属性:
name:实体名称
dataSource:数据源名称
pk:实体主键,增量导入时使用
query:全量同步SQL
deltaQuery:增量导入时查询需要导入的数据的主键
deltaImportQuery:增量导入查询SQL,根据deltaQuery查询出的id查询数据
deletedPkQuery:增量导入时会删除solr中根据该SQL查询出来的id对应的数据
增量同步原理:首先保障数据库表里面有个记录时间的字段,每次添加或者修改后记录时间;solr每次同步数后会记录同步时间:last_index_time,
然后SQL语句里面就可以添加查询条件 :last_modify_date >= '${dih.last_index_time}',表里面更新时间大于solr的更新时间,说明数据被更新了或者是新增的数据;
last_modify_date:这个是表里面记录更新、插入时间的字段;
-->
<!-- 以下为自定义配置-->
<document>
<entity name="share" transformer="ClobTransformer" dataSource="source1" pk="RECID"
query="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.DOCpubtime,cnd.docreltime,cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10"
deltaImportQuery="select cnd.recid, cnd.chnlid, cnd.docid, cnd.modal, cnd.docstatus, cnd.docpuburl, cnd.docpubtime,cnd.docreltime, cnd.siteid, cnd.docchannel, doc.doctitle,doc.doccontent,doc.opertime from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.DOCSTATUS=10 and cnd.recid = '${dih.delta.RECID}'"
deltaQuery="select recid from chnldocinfo cnd left outer join documentinfo doc on cnd.docid=doc.docid where cnd.docstatus=10 and doc.OPERTIME > to_date('${dih.last_index_time}','yyyy-mm-dd hh24:mi:ss')"
deletedPkQuery="select recid from chnldocinfo where docstatus!=10">
<field column="RECID" name="recid" />
<field column="CHNLID" name="chnlid" />
<field column="DOCID" name="docid" />
<field column="MODAL" name="modal" />
<field column="DOCSTATUS" name="docstatus" />
<field column="DOCPUBURL" name="docpuburl" />
<field column="DOCPUBTIME" name="docpubtime" />
<field column="DOCRELTIME" name="docreltime" />
<field column="SITEID" name="siteid" />
<field column="DOCCHANNEL" name="docchannel" />
<field column="DOCTITLE" name="doctitle" />
<field column="DOCCONTENT" name="doccontent" clob="true"/>
<field column="OPERTIME" name="opertime" />
</entity>
</document>
</dataConfig>
注意大写字段的地方,测试了好久才发现大小写对oracle增量发布有影响
配置solrconfig.xml导入的Handler
<!-- 以下为自定义配置-->
<requestHandler name="/dataimport" class="org.apache.solr.handler.dataimport.DataImportHandler">
<lst name="defaults">
<str name="config">db-data-config.xml</str>
</lst>
</requestHandler>
配置映射文件,进入db-data-config.xml同目录,找到managed-schema
<!-- 定义文档字段
name:字段名称;type:分词类型;indexed:是否进行索引;stored:是否进行储存,需要进行显示一般需要储存;
required:字段是否可为空;multiValued:是否有多个值
-->
<field name="recid" type="string" uninvertible="false" indexed="true" required="true" stored="true"/>
<field name="chnlid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="modal" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docstatus" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docpuburl" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docpubtime" type="strings" stored="true" required="false" multiValued="false"/>
<field name="docreltime" type="strings" stored="true" required="false" multiValued="false"/>
<field name="siteid" type="strings" stored="false" required="false" multiValued="false"/>
<field name="docchannel" type="strings" stored="true" required="false" multiValued="false"/>
<field name="doctitle" type="text_ik" stored="true" required="false" multiValued="false"/>
<field name="doccontent" type="text_ik" stored="true" required="false" multiValued="false"/>
<field name="opertime" type="strings" stored="true" required="false" multiValued="false"/>
<!-- 索引复制,联合索引 -->
<field name="keyword" type="text_ik" indexed="true" stored="true" omitNorms="true" multiValued="true"/>
<copyField source="doctitle" dest="keyword" maxChars="30000"/>
<copyField source="doccontent" dest="keyword" maxChars="30000"/>
配置完成,进入solr管理界面查看:
选择要配置的core,点击dataimport,选择entity,execute,刷新,导入完成,完事!
7、浏览器地址
在浏览器直接输入网站 : http://localhost:8983/solr/meta_db/dataimport?command=delta-import^&clean=false^&commit=true
SOLR在浏览器中输入命令:
1、全导入:
http://localhost:8983/solr/meta_db/dataimport?command=full-import&commit=true
2、增量导入:
http://localhost:8983/solr/meta_db/dataimport?command=delta-import&clean=false&commit=true
3、查看导入状态
http://localhost:8983/solr/meta_db/dataimport?command=status
浏览器地址可用作定时任务执行调用的地址
8、开启基本身份验证新建配置文件security.json,放到目录solr-8.9.0\server\solr下,就是和solr.xml同级
{ "authentication": 【1】 { "blockUnknown": true, 【2】 "class": "solr.BasicAuthPlugin", "credentials": 【3】 { "solr": "IV0EHq1OnNrj6gvRCwvFwTrZ1 z1oBbnQdiVC3otuq0= Ndd7LKvVBAaZIF0QAVi1ekCfAJXr1GGfLtRUXhgrF8c=" } }, "authorization": { "class": "solr.RuleBasedAuthorizationPlugin", "permissions": [ 【4】 { "name": "security-edit", "role": "admin" }], "user-role": 【5】 { "solr": "admin" } } }
在这个文件中定义了几个东西,以下的解释对应于上述的序号:
启用基本身份验证和基于规则的授权插件。 参数 "blockUnknown": true 表示不允许未经身份验证的请求通过。 已定义了一个名为 "solr" 的用户,其中有密码 "SolrRocks"。 "admin" 角色已定义,并且具有编辑安全设置的权限。 "solr" 用户已被定义为 "admin" 角色。 这里配置了用户名密码是:solr SolrRocks
10、开启IP访问限制
solr8.9.0使用的是jetty容器,需要在solr-8.9.0\server\etc\jetty.xml里进行配置
找到节点
在下面添加白名单IP配置
,
<!-- Restricting IP addresses for Jetty and Solr --> <Item> <New id="IPAccessHandler" class="org.eclipse.jetty.server.handler.IPAccessHandler"> <Set name="white"> <Array type="String"> <Item>127.0.0.1</Item> </Array> </Set> <Set name="whiteListByPath">false</Set> <Set name="handler"> <Ref refid="Contexts"/> </Set> </New> </Item> <!-- Restricting IP addresses for Jetty and Solr -->
免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com