我很困惑在Google网站上find两个不同的站点地图:
http://sites.google.com/site/(name of the site)/system/feeds/sitemap http://sites.google.com/site/(name of the site)/system/app/pages/sitemap/hierarchy
现在,我已经准备好了,问一个令人困惑的问题:“什么是网站地图?” 我一直认为,正如前面的例子所证实的那样,它们是允许爬虫看到网站上的东西的东西。 后面的例子挑战了我的知识。 他们究竟是什么? 前者只为人类而后者为爬行者? 是否还有更多不同types的站点地图?
网站地图可以是a)网站结构为人类受众提供的视觉表示b)文件,用于通知networking爬虫(谷歌,雅虎)哪些url可用于爬网。 它通常与robots.txt文件相结合,通知抓取工具哪些url可以被索引,而不能。 站点地图最常见的格式是XML,它允许指定URL的重要性和更改频率。 你可以阅读http://www.sitemaps.org/protocol.php中的规范。 不常见,但可能的格式的站点地图只是plaint文本文件,用换行符分隔URL。 它不像XML格式那样灵活,所以XML格式更受SEOsearch的好评。 您可以拥有多个XML站点地图,并将其链接到站点地图索引中。 它经常被大型站点使用,因为站点地图协议将站点地图大小限制为10 MB。 另外,您可以使用RSS或ATOM订阅源来通知抓取工具关于url的信息。 这种方法的缺点是,你可以通知最新的url。
术语站点地图可以有两个稍微不同的含义:
一个网页,为您的用户提供您的网站的概述。 这就是你的榜样
http://sites.google.com/site/ (网站的名称)/ system / app / pages / sitemap / hierarchy
是。 只需将其粘贴到浏览器的URL-Bar中即可看到自己。
这种网站地图是一个机器可读(xml文本)列表的url组成的url。 这是一种允许抓取工具查看网站上的内容的网站地图 。
你甚至可以有这种多个站点地图。 原因与为什么我们通常没有在一个文件中的所有源代码相同。 如果将站点地图分割成多个文件,pipe理起来更容易。
在你的例子中
http://sites.google.com/site/(name of the site)/system/feeds/sitemap
“feeds”表示这是一个仅包含RSS提要的URL的站点地图。
要了解它包含什么,你将不得不仔细看看它。 一种方法是像这样下载文件
wget http://sites.google.com/site/(name of the site)/system/feeds/sitemap
并用你最喜欢的文本编辑器打开它。
在我的网站在谷歌这个文件看起来像这样:
<?xml version="1.0" encoding="UTF-8"?>
<urlset xmlns="http://www.sitemaps.org/schemas/sitemap/0.9">
</urlset>
这几乎是空的。 原因可能是我刚创build的网站,没有饲料条目存在。