TRS全文数据库引爆企业搜索引擎应用
作者:拓尔思 人气:
【字体:大 中 小】
发布时间:2006-10-21 00:51:40
2005年4月20日,国内企业搜索引擎和内容管理软件领域的领军企业北京拓尔思(TRS)信息技术有限公司在北京宣布推出新一代全文数据库系统,一下子就吸引了大家的注意力,大家忘了即将来临的沙尘暴,兴奋仔细地研读TRS公司发布的新一代全文数据库系统及其推出的《TRS企业搜索引擎白皮书》。
当时,TRS公司的新品发布,提出了利用新一代的全文数据库系统作为构建企业搜索引擎和电子商务搜索引擎的基础平台,部署非结构化信息资源管理的基础设施,架构内容管理的动力引擎的新思想。一系列的理念和新的技术特点将人们的视线从浮躁的互联网搜索引擎讨论拉回到最为实际的企业级应用,确实给人耳目一新的感受。一直以来,因为业界关注的焦点总是集中在互联网应用,加上一些厂商的推波助澜,人们对于搜索引擎的理解也就简单而直接地定位在互联网信息的搜索应用上。以至提到“搜索引擎”,大家就自然反应为GOOGLE之类的互联网搜索引擎服务商。而对于大量存在的,更具实际生产效能的企业内部信息搜索漠视甚至也错误理解为一个类似GOOGLE般的搜索引擎。而实际上因为全球的企业信息化浪潮,催生了大量的信息内容,并且根据统计,企业数据每年以200%的速度增长,其中80%以上的数据以文件、邮件、图片等非结构化数据存放在企业内计算机系统中的各个角落。而且这些数据总量远远超过了互联网信息的总量。有数字表明,企业发布到互联网的信息只占到信息量的1%-2%,而98%以上的信息是存储在企业内部的。自从有了信息和内容,那么“搜索”就会成为人们永远避不开的宿命。由此,如何方便,快捷,安全地获取企业内部的信息内容,造就了一个新的但实际上非常传统的应用——企业搜索引擎。休 闲居 编 辑
因为组织内部的信息产生流程,信息存储和分享的途径和所依赖的信息技术基础架构和互联网是完全不同的。从需要搜索管理的目标数据结构,搜索的全面性和准确性,信息获取的实时性等多个环节都具自有的特质。因此,企业搜索引擎对应于我们传统理解上的搜索引擎确实是个新鲜的话题。
但是,实际上企业搜索引擎由来已久,因为有了数字化的信息,那么就必然会出现对于信息搜索的需求,并且在许多机构内部都部署了各类信息搜索的应用。所以说这又是一个实际上非常传统的应用。从广义角度来看,企业搜索引擎应用覆盖了企业内部所有和搜索相关的应用,包括非结构化信息资源管理应用中的搜索,内容管理应用中的信息获取和挖掘分析。从狭义上来看,企业内部的涉及到其80%信息量的非结构化数据的管理总体上分为三种应用:企业搜索引擎应用,企业非结构化信息资源管理应用,企业内容管理应用。当然这三者又是相辅相成的,在不同应用环境中有不同的侧重。
单就TRS公司发展历史来看,十多年前就开始从事企业级的信息搜索系统研究。在经历了多年的研究和实践之后,形成了以TRS全文数据库系统为基础平台,构建企业搜索引擎,部署企业非结构化信息资源管理,架构全面内容管理的应用的技术路线和产品线。在国内占据了80%的以信息整合,信息搜索,内容挖掘为应用目标的企业搜索引擎及内容管理市场,目前已经在国内外拥有了近2000家企业级客户。并且,多年来,TRS公司一直引领着该领域的技术规范,把握牵引着应用导向。成为该领域名副其实的技术和市场的领导者,并且一直是该领域的标杆企业,为多家跟进公司的学习和研究对象。更有多个研究机构和教育机构将TRS相关技术和规范列入教学科研的教材。有些业界人士甚至说“可以丝毫不夸张的说‘TRS就是企业搜索引擎领域的GOOGLE’”。
经过一年的发展和完善,TRS公司推出新一代TRS全文数据库系统,传承了之前关于中文信息处理和检索方面的所有能力,并且在充分分析了企业应用的环境和需求上,极大程度地强壮了底层平台的管理能力,优化了底层的体系架构,引入关系型数据库的一些计算能力和特点,更深采用了中文智能挖掘技术。使得TRS全文数据库系统在构建企业搜索引擎应用中更加充分发挥其作为基础平台的性能,满足企业搜索的需求;在部署企业非结构化信息资源管理时,能够利用该全文数据库系统作为核心的管理工具,实时安全地管理各类信息资源,提供准确迅速的搜索服务,并且有效地将信息资源传递到对应的决策分析流程上;在构架整个企业的内容管理应用时,全文数据库系统为内容生产,创建,协同,利用,挖掘等多个环节上提供动力引擎的支持,特别是在内容挖掘应用上充分体现了其核心的价值和能力。
根据权威评测机构的报告以及TRS公司研发总监肖诗斌教授的介绍,新一代全文数据库系统导入了一些新的技术:关系型数据库的部分事务处理技术;安全检索技术,实时数据索引技术,系统集群架构技术,Native XML技术,多语种管理技术,智能搜索知识挖掘技术,算法优化技术。多种新技术的采用,使得新一代全文数据库系统能够满足企业在其企业搜索引擎,信息资源管理,内容管理等应用领域中的各种高端的“企业级”应用需求。新技术的采用,解决了一直困绕企业应用的几个问题:
•异构海量数据统一管理,非结构化和结构化数据集成检索
在企业内部的信息既有互联网站点上的,也有内部网站点上的;既有网页形式的,又有各种数据库形式的,如SQL Server、Oracle数据库等;既有结构化数据,而更多的是各种电子文件格式的非结构化及半结构化数据,如Word、Excel、Lotus Notes、PDF、XML等;既有文本形式的数据,还有多媒体形式的数据;而且,同一机构的数据还可能分布在不同的介质载体上。TRS全文数据库系统很好的解决了各类数据的统一管理的问题。同时,为了实现更加精确的查询,TRS全文数据库系统引入关系型数据库的一些处理能力,可以很好地实现结构化数据和非结构化数据的集成检索。
•Native XML内核,实现全息检索
新一代全文数据库系统支持Native-XML规范,使得XML文件无需像关系数据库一样分解后存储,支持XML的全息索引,即:任何标记,以及标记的任何属性,都可以用来描述检索目标。并且兼容XPATH/XQUERY的检索。
可以说新一代全文数据库系统在底层架构上具备了关系型数据库的特征,同时更是一个Native-XML,当然,她更是一个非结构化数据库。•智能辅助检索,支持知识挖掘
新一代全文数据库系统除了核心模块中内嵌数万条语义歧义规则,丰富的分词和主题词典外,还通过外挂模式,提供了中文自动分类,自动聚类,自动去重等多个智能处理模块,使得通过TRS全文数据库系统构建的应用系统可以实现智能搜索,数据挖掘,内容智能分析等。
•算法优化,检索速度和准确性共达最优
新一代全文数据库系统基于成本优化的查询算法,单机环境下使得G级数据库查询速度达到亚秒级。自动分库技术应用,充分利用多库并行检索技术,进一步提高了检索速度;使得数据加载速度保持稳定。完善的多级Query-CACHE技术,从而支持更多的并发用户访问,并大大提高综合查询速度。基于词以及词频的bi-gram算法,极大地提高了检索速度。
在准确性方面,因为字词索引的结合,结构化数据和非结构化数据的集成搜索技术的应用,为高准确性的搜索也提供了天然的技术支持。•动态索引实时更新,面向事务处理
TRS全文数据库动态索引实时更新的能力,使得企业搜索引擎,信息资源管理,内容管理等多种应用切入企业的生产,决策成为可能。由一种资料型的信息获取向生产事务型应用转变成为现实。
•支持Unicode编码,提供多语种查询引擎
面对全球经济一体化的态势,多语种的处理成为以信息内容为管理对象的各种应用绕不开的坎。新一代TRS全文数据库系统支持UNICODE编码,远远超越了早前的中文全文数据库的概念。
•多级机制保障,信息采集和检索高度安全
企业内部的应用,信息本身的安全是最为重要的一个特征,也是重要的要求。保证企业内的信息有序地生产和利用,安全控制是必要的技术要求。新一代全文数据库系统采用了多级机制来保障信息的生产,检索,利用的高度安全。
•集群检索,保证高可靠性,随需轻松扩展规模
TRS全文数据库系统支持集群和分布式的应用,为非结构化信息的管理切入企业的关键业务提供了技术基础。并且这种扩展可以根据企业的发展需求做到随需扩展。
综上所述,TRS全文数据库系统不仅满足在企业搜索引擎业务以及内容管理业务中的应用需求,同时她已经具备了在搜索信息,获取信息的基础上,进行信息内容的挖掘,知识萃取的能力。已经逐步成为企业知识管理领域不可缺少的基础技术和平台。
TRS公司总裁施水才介绍,TRS全文数据库实际上已经在多个应用领域取得了市场上的成功。并且此次新一代全文数据库系统的发布也是在总结多个应用中的新需求,结合TRS公司及业界多年的研究推出的新一代产品。并且TRS公司携带其应用经验和研究成果还参与了国家中文全文数据库的标准制定。可以预见,新一代全文数据库系统是一个符合标准,符合市场,贴近实际应用的新一代产品。同时,就在TRS新一代全文数据库系统正式发布之前,已经在新华社,公安部,深圳招商集团等多家大型的搜索和内容管理应用中得到检验。
顺便通过互联网搜索一下,发现TRS信息技术有限公司是中文信息检索技术的领导者,是中文内容管理和企业搜索引擎的推动者。作为一家具有强大软件研发能力和自主核心技术的厂商,TRS拥有国内80%以上的非结构化数据库(全文数据库)市场占有率,国内主要中心城市的电子政务系统均选用TRS品牌。目前,其全文数据库系统已成功应用于国务院办公厅、外交部、中联部、新华社、人民日报、中央电视台、中国五矿集团等国家部委和大型企业。