谷歌搜索 API 大量泄露文档揭示搜索引擎内部排名算法详细信息
但泄露文档证实,这些因素都是谷歌搜索引擎排名机制中的一环。Mueller在一次采访中说道,谷歌没有直接在搜索排名算法中使用点击量数据和用户行为数据。Fishkin指出,本次泄露的文档表明,在谷歌的搜索排名算法中,品牌比什么都重要。结语:泄露文件揭秘谷歌排名运作机制,
据一家市场和受众研究公司官网5月29日发布的博客文章显示,一位匿名消息人士(后证实为SEO行业资深从业者埃尔凡·阿兹米)向该公司首席执行官兰德提供了大量来自谷歌搜索API的泄露文档,其中透露了有关谷歌搜索引擎内部排名算法的详细信息。
泄露文件的部分内容与谷歌在2023年美国司法部针对谷歌的反垄断案中的公开声明和证词相矛盾。例如,谷歌曾多次否认使用基于点击的排名机制、否认在排名中单独考虑子域名、否认收集或考虑域名年龄等。但泄露的文件证实,这些因素是谷歌搜索引擎排名机制的一部分。
此次泄露的搜索API文档总计超过2500页,包含14014个属性特征,据称这些文档是内部“API”的一部分,并曾被意外地公开在代码托管平台上一段时间。
博主兰德在与多位谷歌前员工的沟通中证实,泄露的文档具有谷歌内部API文档的特征。兰德与技术SEO(搜索引擎优化)专家迈克·金进行了沟通,再次验证了这些文档的真实性。
这些文件的泄露可能对搜索营销领域产生深远的影响,因为它们提供了对谷歌搜索引擎内部运作方式的前所未有的洞察,包括它如何使用点击数据、浏览器点击流、白名单、质量评估者反馈和链接质量来影响搜索结果排名。
01.
泄露的文件于三月底被公开。
前谷歌员工证实该文件的真实性
5月24日,兰德与举报人埃尔凡·阿齐米进行了视频通话。阿齐米最初决定匿名披露此事,但在5月28日他决定公开身份。埃尔凡·阿齐米在通话中特意展示了泄露的谷歌搜索API文档。根据文档的提交历史,这些文档于2024年3月27日上传到代码托管平台,直到2024年5月7日才被删除。
这些文档是谷歌“API”的一部分,可以被认为是谷歌搜索团队成员的指南,就像图书馆里的书籍列表或卡片目录一样,告诉需要的员工知道有哪些资源可用以及如何访问这些资源。
但与公共图书馆不同的是,谷歌搜索是世界上最秘密、最严密保护的黑匣子之一。在过去 20 多年里,谷歌搜索部门从未发生过如此规模、内容如此详细的泄密事件。
值得注意的是,该文档不包含搜索排名算法中特定元素的权重等信息,也不证明排名系统中使用了哪些元素。但是,它确实展示了有关 收集的数据的大量细节。以下是文档格式的示例:
在向兰德介绍了部分 API 模块后,埃尔凡·阿齐米解释了自己的动机。他希望增加谷歌搜索排名机制的透明度,并要求谷歌对其行为负责。埃尔凡·阿齐米还希望兰德能发表一篇文章分享这次泄密事件,揭露其中蕴含的诸多有趣数据,驳斥谷歌部分员工多年来一直在散布的“谎言”。
为了验证泄露文件的真实性,兰德联系了一些谷歌前员工,将泄露的文件分享给他们,并询问他们的想法。最终网站排名优化,有两名谷歌前员工对该文件的真实性发表了自己的看法:
“我在谷歌工作时无法接触到这些代码。但这些文档看起来确实符合谷歌的内部规范。”
“它具有内部 API 的所有特性。”
“这是一个基于 Java 的 API。很显然,编写此文档的人花了大量时间来遵守 的内部文档和命名标准。”
“我需要更多时间来确定,但这与我熟悉的内部文件一致。”
“从我的简短审查来看,我没有发现任何不遵守谷歌内部惯例的迹象。”
02.
谷歌搜索引擎丑闻曝光。
官方声明与泄露的文件相矛盾
为了进一步解读泄露的文件,兰德联系了知名技术 SEO 专家、数字营销机构创始人迈克·金 (Mike King)。迈克·金在其官方博客上详细分析了泄露文件的内容。兰德结合举报人透露的信息和迈克·金的分析,总结出了以下五个早期发现:
1. 在其排名算法中使用用户交互数据
2017年,谷歌搜索关系团队负责人约翰在接受采访时表示,谷歌并没有在搜索排名算法中直接使用点击数据和用户行为数据。然而,2023年9月,曾在谷歌搜索质量和排名部门工作17年的谷歌前员工埃里克在谷歌反垄断调查听证会上作证:“几乎所有人都知道,我们(谷歌)在搜索排名中使用点击数据。”
此次泄露的文件进一步证实了这一点,文件内容显示谷歌在文件中对点击数据进行了命名和描述,这意味着这些数据已经成为搜索排名算法中的衡量标准之一。
2. 的创建是为了收集大量数据并优化搜索排名
在 2022 年的一次活动中,有人问约翰,谷歌是否会使用收集到的用户数据对搜索结果进行排名。约翰回答说,据他所知,谷歌不会这样做。
然而,Erfan Azimi 声称,早在 2005 年, 就想获得数十亿互联网用户的整个点击流(即用户访问网站时留下的痕迹数据)。是的,他们现在已经获得了这些数据。泄露的 API 文档显示, 计算了几种类型的指标,可以使用与单个页面和整个域相关的视图来调用这些指标。
兰德指出,谷歌可能会使用浏览器中某个页面的点击次数,并以此确定网站上最受欢迎或最重要的 URL,然后根据这些 URL 计算出应将哪些 URL 纳入站点链接功能。
例如,在上面的 搜索截图中, 通过跟踪数十亿用户点击流对网站内的页面进行排名。
Mike King 还在分析中指出,泄露文件中与页面质量评分相关的模块包含基于页面浏览量的站点级指标。另一个似乎与生成站点链接相关的模块也具有与以下内容相关的属性。
一份泄露的谷歌内部演示文稿还显示,早在 2016 年 5 月,谷歌就计划将数据引入搜索。
3. 在某些地区实施白名单机制,受信任的域名将获得更高的排名
在泄露的文件中,有一个名为“优质旅游网站”的模块。该模块显示谷歌在旅游领域有白名单,但目前的信息无法证明这个白名单机制是专门针对旅游相关搜索,还是针对更广泛的网页搜索。泄露的文件中还有一些标签,如“y”和“”。这些标签进一步表明谷歌正在将特定域名列入白名单。这可能是为了在执行一些极具争议的查询时提供更准确的信息。
4. 的质量评估员直接影响搜索结果排名
谷歌早就有一个名为 EWOK 的质量评分平台。泄露的文件显示,谷歌在其搜索系统中使用了质量评估器的一些元素。EWOK 质量评估器生成的分数和数据可能直接参与谷歌的搜索系统,而不仅仅是实验的训练集。这些数据在评论和模块细节中特别提到。
上图中的文字提到“人工评级(例如来自 EWOK)”,并指出它们“通常仅填充在评估流程中”,这表明它们可能主要是该模块中的训练数据。
泄露的文件还显示,谷歌要求“对每篇文档进行相关性评分”,而这一评分来自通过EWOK进行的评估。兰德认为,尽管文件中没有详细的注释,但可以想象这些人工评分的重要性。
5. 使用点击数据来确定链接权重
Erfan Azimi 指出, 将其链接索引分为三个层级(低质量、中质量和高质量)。点击数据用于确定文档属于哪个链接图索引层级。如果链接的点击次数很少,它将进入低质量索引,这意味着该链接将被忽略。但是,如果链接从可验证设备获得大量点击,它将进入高质量索引,这也显示了高排名信号。来自低质量链接索引的链接不会影响网站的排名。这些链接只是被忽略。
03.
泄露的文件颠覆了传统的SEO模式,
中小企业SEO性价比很高
谷歌泄露的文件揭露了谷歌搜索排名算法不为人知的一面,对于搜索引擎优化行业从业者来说具有很大的参考价值。
兰德指出,泄露的文件表明,在谷歌的搜索排名算法中,品牌比什么都重要。谷歌有多种方法来识别实体、对其进行排序、排名和过滤。
这些实体包括品牌,例如品牌名称、品牌官方网站和社交媒体账户。谷歌目前正在向主导网络的大型品牌发送大量流量,而不是向较小的独立网站和企业发送流量。
对于大多数中小型企业和较新的创作者和出版商而言,在建立可信度、导航需求和大量受众中的良好声誉之前,SEO 回报可能很差。
此外,经验、专业性、权威性和可信度(EEAT)在 的排名系统中并不那么重要。
目前,泄露文件中提到的唯一专业领域是关于谷歌地图审查贡献的说明。涉及 EEAT 的其他标记都是隐蔽的、间接的、难以检测的。这些因素可能不是谷歌搜索排名系统的具体元素。
泄露的文件还显示,谷歌搜索中的经典排名因素,如(谷歌早期衡量网页重要性和排名的算法)、锚文本链接和文本匹配等多年来越来越重要,但页面标题仍然非常重要。
虽然它在搜索索引和排名中占有一席之地,但它几乎肯定是 1998 年原始论文的演变。泄露的文件包含多年来创建和丢弃的多个版本。虽然泄露的文件中存在锚链接,但似乎并不特别重要。
此外网站排名优化,用户互动(例如点击)在搜索排名中起着主导作用。当用户互动模式清晰时,内容和链接在排名系统中就是次要因素。
04.
结论:泄露的文件揭示了 排名的工作原理。
透明度仍然是谷歌的致命弱点
尽管谷歌一再强调其算法的公平性和中立性,但泄露的文件再次引发了人们对谷歌透明度的质疑。
兰德指出,谷歌是全球信息和商业传播领域最强大、最具影响力的力量之一。
作为搜索引擎巨头,谷歌的排名机制直接影响着互联网上的信息流通,事关言论自由和公平竞争。但谷歌内部不透明的运营方式无疑加剧了人们对于其中立性的怀疑。
谷歌尚未对此次泄密事件作出回应,但此事已在 SEO 从业者中引起轰动。泄密文件已在文件托管网站上公布,或许更多细节将在稍后浮出水面。