搜索引擎的工作原理——抓取、索引和排名 |
2023-12-20 16:18:47 浏览次数:13 次 |
|
|
2xx status codes:一类指示页面请求已成功的状态码。
4xx status codes:一类指示页面请求导致错误的状态码。
5xx status codes:一类指示服务器无法执行请求的状态码。
Advanced search operators:您可以在搜索栏中键入的特殊字符和命令,以进一步指定您的查询。
Algorithms:以有意义的方式检索和排序存储信息的过程或公式。
Backlinks:或“入站链接”是指向您网站的其他网站的链接。
Bots:也称为“爬虫”或“蜘蛛”,它们会在互联网上搜索内容。
Caching:网页的保存版本。
Caffeine:谷歌的网络索引系统。咖啡因是网络内容的索引或集合,而 Googlebot 是出去寻找内容的爬虫。
Citations:也称为“企业列表”,引文是基于网络的对本地企业名称、地址和电话号码 (NAP) 的引用。
Cloaking:向搜索引擎显示与向人类访问者显示的内容不同的内容。
Crawl budget:搜索引擎机器人将在您的网站上抓取的平均页面数
Crawler directives:关于您希望爬虫在您的网站上爬取和索引的内容的指令。
Distance:在本地包的上下文中,距离是指接近度,或搜索者的位置和/或查询中指定的位置。
Engagement:表示搜索者如何从搜索结果与您的网站互动的数据。
Google Quality Guidelines:Google发布的指南详细说明了被禁止的策略,因为它们是恶意的和/或旨在操纵搜索结果。
Google Search Console:谷歌提供的免费程序,允许网站所有者监控他们的网站在搜索中的表现。
HTML:超文本标记语言是用于创建网页的语言。
Index Coverage report: Google Search Console 中的报告,显示您网站页面的索引状态。
Index:包含所有内容搜索引擎爬虫的庞大数据库,已发现并认为足以为搜索者提供服务。
Internal links:您自己网站上的链接,指向您在同一网站上的其他页面。
JavaScript:一种向静态网页添加动态元素的编程语言。
Login forms:指需要登录身份验证才能访问者访问内容的页面。
Manual penalty:指 Google 的“人工操作”,人工审核人员确定您网站上的某些页面违反了 Google 的质量指南。
Meta robots tag:提供爬虫指令的代码段,用于如何爬取或索引网页内容。
Navigation:帮助访问者导航到您网站上的其他页面的链接列表。通常,它们出现在您网站顶部(“顶部导航”)、网站侧栏(“侧边导航”)或网站底部(“页脚导航”)的列表中。
NoIndex tag:指示搜索引擎不要索引其所在页面的元标签。
PageRank: Google 核心算法的一个组成部分。它是一个链接分析程序,通过测量指向它的链接的质量和数量来估计网页的重要性。
Personalization:指的是搜索引擎根据一个人的独特因素(例如他们的位置和搜索历史)修改其结果的方式。
Prominence:在本地包装的背景下,突出是指在现实世界中知名和受欢迎的企业。
RankBrain:谷歌核心算法的机器学习组件,通过提升最相关、最有用的结果来调整排名。
Relevance:在本地包的上下文中,相关性是本地企业与搜索者正在寻找的内容相匹配的程度
Robots.txt:建议您的站点搜索引擎的哪些部分应该和不应该抓取的文件。
Search forms:指网站上的搜索功能或搜索栏,可帮助用户在该网站上查找页面。
Search Quality Rater Guidelines:为 Google 工作的人工评估者确定真实网页质量的指南。
Sitemap:您网站上的 URL 列表,爬虫可以使用这些 URL 来发现您的内容并将其编入索引。
Spammy tactics:像“黑帽”一样,垃圾邮件策略是那些违反搜索引擎质量指南的策略。
URL folders:在 TLD (“.com”) 之后出现的网站部分,以斜线 (“/”) 分隔。例如,在“http://moz.com/blog”中,我们可以说“/blog”是一个文件夹。
URL parameters:附加到 URL 以更改页面内容(主动参数)或跟踪信息(被动参数)的问号后面的信息。
X-robots-tag:与元机器人标签一样,此标签为爬虫提供有关如何爬取或索引网页内容的说明。
|
|
|
|
|
|