常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(1)

#本文仅代表作者观点,不代表IPRdaily立场,未经作者许可,禁止转载#

来源:IPRdaily中文网(IPRdaily.cn)

作者:吴正明 常州市权航专利代理有限公司

原标题:先布尔再语义还是先语义后布尔,这是一个问题

随着专利数据库的发展,数据量全已经是一个最基本的评判指标了,智能化的傻瓜型检索方式能够帮助企业非专业的IPR经过短期培训也能够胜任普通的检索要求;因此,为了使专利数据库的使用更加人性化,语义检索也成为各大专利数据库宣传的重点。本文对一件“基石”专利价值评估值38万美金的专利进行检索分析。

前段时间有分析师分析了国内数据库的专利申请情况,同时根据专利被引用次数,找出了一家数据库被19次引用的专利,这件专利被认为是该数据库的“基石”专利,引用这件美国专利申请的企业都是微软、阿里巴巴、百度、LEXIS NEXIS等国内外互联网巨头,体现了这件专利在相关技术上的先进性。分析师指出,这件名为“Method and System for Re-ranking Search Results”的专利,背后是基于自然语义分析的新一代智能搜索技术,通过超大规模计算智能,能自动理解不同专利文献中蕴含的各种主题。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(2)

带着强烈的好奇心,笔者找出了这件专利,进行了分析。这件“基石”专利价值评估值38万美金。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(3)

专利的优先权是中国专利CN200810105725.1(对搜索结果重新排序的方法和系统),这件中国专利申请在授权时遇到一些波折,经历了一次复审,也就是说审查员曾经做出过驳回决定。以下是最终授权版本的权利要求1。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(4)

权利要求1很简单,也说明了保护范围较大,创新比较原始,从保护内容来看,实质上是布尔检索和语义检索联合使用时的一种应用场景。翻译过来大概是:

1、计算机搜索用户输入的关键词等布尔检索式,获得检索结果;

2、计算机根据用户输入的语义检索式(重排序表达式),对第一步的结果进行重新排序;

3、显示排序后的所有检索结果。

看来这件专利应该属于自然语义分析的新一代智能搜索技术的应用专利,而与自然语义分析本身没太大的关系,在说明书中也是引用了一些文献,并且核心算法并未在说明书中直接公开,仅公开了一些显性操作过程和执行过程。

这件中国专利在授权的权利要求1中主要改变了两个特征,一是增加了“其中重排序表达式与搜索表达式同时输入”,二是删除了对部分文档进行排序和显示部分文档的技术方案(根据重排序表达式,对部分文档进行重排序,以所述排序来显示所述搜索结果中的部分文档),只保留了对所有文档进行排序并显示所有文档的技术方案。

同族的美国授权专利中也增加了“重排序表达式为搜索查询附带的文本字符串,在从数据源生成搜索结果时不进行任何操作”的限定。也就是说,语义排序对布尔搜索结果只作排序,不进行再次限定等会影响布尔检索式搜索结果的操作。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(5)

这件专利保护的实际是先布尔限定后语义排序的检索方式,这种技术可以“使得搜索结果不减少的情况下,与用户的关注点相关的结果会显示在结果的最前面。使得用户能够首先关注他特别最期望看到的结果,同时又可以完整地看到其它结果。而且,用户可以对同一个搜索结果根据需要进行多个不同的排序,只要修改排序表达式即可。使用用户个性化定制的重排序表达式可以很好的满足用户个性化的需求,提高了对搜索结果的浏览效率,能够更快更准确地获得需要的结果。”

这件专利申请日是2008年,当时国内数据库方面还停留在关键字检索方式上,基本未涉及语义检索,所以该数据库能提出这样的检索模式和检索思路,同时被如此多的巨头引用,也说明了这件专利在专利数据库检索上的技术贡献和应用前景是比较可观的,带领了国内数据库从布尔检索转向智能化检索具有里程碑的意义。

随着专利数据库的发展,数据量全已经是一个最基本的评判指标了,智能化的傻瓜型检索方式能够帮助企业非专业的IPR经过短期培训也能够胜任普通的检索要求;因此,为了使专利数据库的使用更加人性化,语义检索也成为各大专利数据库宣传的重点。经研究过后,笔者发现当前布尔与语义的配合存在两种方式,一种是先布尔限定后语义排序的方式;第二种是先语义检索出固定量的专利(例如2000条),再用布尔限定在其中继续筛选,也就是先语义后布尔的方式。

以下是笔者基于国内两大数据库演示三种检索模式。

一、先布尔后语义

1.数据库1

先用布尔检索,在全文中搜索具有“多旋翼 or 四轴 or 多轴”关键词的专利,一共111335件。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(6)

添加语义排序条件“CN106494640B”对结果进行排序。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(7)

最终的表达式为R:(“CN106494640B”) AND (TACD_ALL:(多旋翼 or 四轴 or 多轴)),其中R:(“CN106494640B”)部分为语义排序表达式,(TACD_ALL:(多旋翼 or 四轴 or 多轴))部分为布尔限定表达式,结果仍是111335件专利,只不过排序方式发生了变化,专利CN106494640B的公开版本CN106494640A排在了第一个。与该数据库在帮助中心的介绍相同。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(8)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(9)

在顶部输入框可直接输入语义排序表达式和布尔限定表达式,R:(“CN110641729A”) AND (TACD_ALL:(无人机)),检索结果数量变成了123382件专利,专利CN110641729A自身排在了检索结果第一个。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(10)

单独使用布尔检索式(TACD_ALL:(无人机))检索,与布尔 语义的检索结果相同,也是123382件专利,但检索结果排序发生了变化。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(11)

2.数据库2

数据库2中可直接同时输入布尔检索和语义排序(超级排序)的内容进行检索,在“标题、摘要、权利要求”中搜索具有“多旋翼 or 四轴 or 多轴”关键词的专利,同时根据“CN106494640B”进行排序。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(12)

最终的表达式为R=(CN106494640B) AND (TIABC=(多旋翼 OR 四轴 OR 多轴)),其中R=(CN106494640B)部分为语义排序表达式,(TIABC=(多旋翼 OR 四轴 OR 多轴))部分为布尔限定表达式。检索结果一共52999件,其中每件专利都标记了相关度百分比,专利CN106494640B的公开版本CN106494640A排在了第二个,相关度是63.27%。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(13)

删除语义表达式,单独使用布尔检索式(TIABC=(多旋翼 OR 四轴 OR 多轴))检索,与布尔 语义的检索结果相同,也是52999件专利,但检索结果排序发生了变化。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(14)

我们也尝试了在顶部输入框直接输入语义排序表达式和布尔限定表达式,R=(CN106124517A) AND (TIABC=(无人机)),检索结果发生了变化,检索结果数量变成了75229件专利。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(15)

单独使用布尔检索式(TIABC=(无人机))检索,与布尔 语义的检索结果相同,也是75229件专利,但检索结果中无相关度百分比,排序发生了变化。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(16)

二、先语义后布尔

在各数据库独立的语义检索模块中操作时,检索模式并非先布尔后语义的模式,而是采用了相反的先语义后布尔的模式,具体来说,是先通过语义检索先找出固定数量的相关专利(例如2000条),再使用布尔限定在已找出来的固定数量的专利中继续筛选符合布尔检索条件的专利,因此这种模式下,最终的检索数量一定小于等于通过语义检索筛选出的专利数量,同时也一定小于等于仅布尔检索条件的检索结果数量。

1.数据库1

先在语义搜索中输入语义搜索条件CN106494640B。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(17)

检索结果中可得到1000条检索结果,每个结果都有相关度百分比,并且是逐渐降低的,也就是说系统截取了最相关的1000个检索结果,语义检索表达式是一串加密的代码。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(18)

在语义检索基础上,使用布尔检索条件限定IPC分类号为B64F5/60,进行二次过滤。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(19)

过滤后检索结果为75条,也就是原1000条相关专利中,有75件专利的IPC分类号为B64F5/60。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(20)

而单独检索IPC分类号为B64F5/60的专利为3588条,也就是说此种方式并不是先布尔限定后语义排序,而是先语义检索出1000条专利,在1000条结果中,再限定IPC分类号为B64F5/60的专利,共75条。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(21)

2.数据库2

先在语义搜索中输入语义搜索条件CN106494640B。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(22)

检索结果中可得到2000条检索结果,每个结果都有相关度百分比,并且是逐渐降低的,也就是说系统截取了最相关的2000个检索结果。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(23)

在语义检索基础上,使用布尔检索条件限定IPC分类号为B64F5/60,进行二次过滤。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(24)

过滤后检索结果为45条,也就是原2000条相关专利中,有45件专利的IPC分类号为B64F5/60。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(25)

而单独检索IPC分类号为B64F5/60的专利与数据库1相同,也是3559条,也就是说此种方式并不是先布尔限定后语义排序,而是先语义检索出2000条专利,在2000条结果中,再限定IPC分类号为B64F5/60的专利,共45条。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(26)

三、先布尔后语义 截断

1.数据库1

在数据库1独立的语义检索模块中操作时,界面下方还可以同时输入一些布尔限定条件,看起来类似先布尔后语义的模式,但从检索结果看,仍是1000条结果。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(27)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(28)

使用IPC分类号B64F5/60对结果进行二次限定,检索结果仍是1000条,并且检索结果排序未发生变化。也就是说原检索结果中所有的专利都具有IPC分类号B64F5/60,这种模式应该是先布尔后语义,同时做了相应的截断处理,未显示完整所有的布尔检索结果。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(29)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(30)

2.数据库2

在数据库2独立的语义检索模块中同时输入布尔限定条件,检索结果也仍是2000条结果。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(31)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(32)

使用IPC分类号B64F5/60对结果进行二次限定,检索结果仍是2000条,并且检索结果排序未发生变化。也就是说与数据库1一样,原检索结果中所有的专利都具有IPC分类号B64F5/60,这种模式应该也是先布尔后语义,同时做了相应的截断处理,未显示完整所有的布尔检索结果。

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(33)

常用的专利检索字段(专利检索中先布尔再语义还是先语义后布尔)(34)

四、小结

由此以上分析,当前语义 布尔的检索模式一共三种,并且各主要数据库都支持这三种模式。先布尔后语义的模式是先使用关键词检索等布尔条件检索出一个专利集合,再使用语义排序对这个集合进行相关度排序,并且显示专利集合中所有的专利;因此,检索结果仍然是布尔检索的结果,只是排序发生了改变;先语义后布尔的模式是先使用语义检索以检索出固定数量(一般为1000或2000)的专利,在这个范围内,再使用布尔检索条件进一步限定,检索结果是两者的交集,专利数量小于等于语义检索条件以及布尔检索条件;最后一种先布尔后语义 截断的模式,则是在先布尔后语义的模式下,不显示所有检索结果,而是截断至前1000个或2000个。

综上,从上述检索结果可以看出,目前国内数据库巨头基于上述三种方式检索反馈的结果数据量是不相伯仲的,那有没有相应公司能够开发一套具有全新检索方式和检索思路的专利数据库,咱们拭目以待。

来源:IPRdaily中文网(iprdaily.cn)

作者:吴正明 常州市权航专利代理有限公司

编辑:IPRdaily王颖 校对:IPRdaily纵横君

,

免责声明:本文仅代表文章作者的个人观点,与本站无关。其原创性、真实性以及文中陈述文字和内容未经本站证实,对本文以及其中全部或者部分内容文字的真实性、完整性和原创性本站不作任何保证或承诺,请读者仅作参考,并自行核实相关内容。文章投诉邮箱:anhduc.ph@yahoo.com

    分享
    投诉
    首页