专利数据作为大数据的一种,具有与新技术联系紧密、产业领域覆盖范围广、内容信息丰富、数据详实准确、数据获取方便等优势,是技术创新的基础性、战略性信息资源。在大数据时代,以新的视角和新的手段审视并充分利用专利数据,将专利信息分析与产业运行决策深度融合,将有利于市场有效配置技术创新要素,有利于技术创新成果直通实体经济,驱动新常态下的国家经济转型升级。
在笔者看来,大数据时代专利信息利用,存在数据鸿沟和认知差异两大矛盾。大数据的核心意义不在于数据的“大”,而在于“据”,价值重点在于通过数据挖掘分析来支撑科学决策。在大数据时代,拥有专利数据并不等于拥有了应用、处理专利数据的能力。一方面,专利数据量快速增长与有价信息快速检索之间存在矛盾,数据洪流带来的信息超载问题不但没有得到有效解决,而且表现出数据鸿沟日益加深的趋势,现有基于原始专利文献所提供的数据入口难以满足用户关于更全、更准、更便捷获取信息的需求;另一方面,专利检索分析的专业性强与知识产权行业外的普通用户的数据检索分析能力间存在矛盾,普通用户难以掌握专利文献专业高效的检索工具,这加大了专利信息普及应用的难度。在这一背景下,如何方便、快捷、全面、高效地利用专利数据获取所需信息仍然是用户痛点,如何从本质上提升专利信息平台的智能化水平仍然是专利信息服务商亟需解决的首要问题。
面向数据精细化和融合化的专利数据深加工,是大数据时代解决专利数据可及性的根本措施。近年来,自然语言处理、人工智能、机器学习等技术发展有力地推动了专利数据的挖掘利用,但在化解专利数据可及性障碍方面并未取得质的飞跃。一个专利信息平台通常涉及数据资源、软件功能及其支撑硬件3个要素,当从软件技术角度解决信息平台智能化问题陷入瓶颈时,人们重新把注意力集中到数据层面,试图通过加工实现数据“增值”,解决专利数据可及性问题。
一方面,人们通过数据深加工探寻进入专利数据宝库的途径,将隐藏在原始专利文献中的高价值信息显性化,通过结构化标引增加更为细致、更多维度的信息获取入口,分流引导数据洪流;另一方面,通过数据深加工,打通专利数据宝库及其相关数据资源的桥梁,将不规范数据予以规范化,将不同的检索语言进行映射关联,将专利与产业、产品、技术进行映射关联,提供链接数据孤岛的接口和切入点,促进数据孤岛的互联互通。因此,大数据时代下的专利数据深加工,对于解决用户使用专利数据的“痛点”和“痒点”具有重要意义。
专利数据承载着时间、空间、主体(申请人或发明人等)、客体(技术主题或技术领域等)4个维度的信息,其中,专利权的主体和客体是数据深加工的重点对象,数据精细化、融合化是大数据时代的数据深加工方向,数据越加工越有价值,数据越关联越有价值。
当前,通过面向精细化和融合化的数据深加工,数据鸿沟正在变浅,认知差异正在化解。在笔者看来,随着专利数据深加工工作的不断深入,“让人们用便捷的方法获取信息、找到所求”的梦想将照进现实,专利数据将不再是尘封的“宝藏”,专利信息将为用户创造更多的价值。
来源:中国知识产权报 武伟