计算相关度的公式
相关度是指两个事物间存在相互联系的百分比。相关度理论是一个相当复杂的理论, 由Mizzaro提出了一个较成功的理论框架, 它主要有个维度信息源信息需求的表示时间构建。考虑这个主要因素就可以基本准确地描述出两个事物的相关度。相关度是带有主观色彩的概念, 不同的人对同一词所给出的相关度都会不同, 因此在生物字典中所存储的词或词的相关度都是由领域专家给出, 其取值在到之间, 或者抽取具有代表性的查询词汇来组成生物字典。文档或由几个或一些词、词组就可以完全表示其中的内容, 那么这些词与该领域的相关度就成为决定文档或与领域相关的关键因素。对搜索引擎来讲,就是指搜索请求和搜索结果之间的关联程度。相关度计算是搜索引擎最重要的技术之一,例如有向量空间模型或者概率模型等计算方法。可以说,搜索引擎赢得了相关度技术,就赢得了用户;赢得了用户,就赢得了市场。对于垂直搜索引擎来说,除了常规的相关度算法,由于垂直搜索引擎植根于一个特定的领域,与特定领域的信息结合起来,发掘分析其中的深度数据,以实现更为精确的相关度算法,从而极大提升用户查询的准确度。