如何从站点地图中提取 URL
1
输入或上传您的站点地图
在上方字段中粘贴任何站点地图 URL (sitemap.xml, sitemap_index.xml),或者直接从您的计算机上传 XML/TXT 文件。
2
自动获取并解析
点击“提取并抓取”。该工具将检索 XML 并提取每个 <loc> 标签中的 URL —— 包括嵌套的站点地图索引。
3
过滤、清理并导出
移除重复项,剥离查询参数,然后复制干净的 URL 列表,或将其下载为 .txt 文件。
常见使用场景
SEO 审核
获取已索引页面的完整清单,并将其与 Google Search Console 或您的爬虫工具进行比较。
内容清单
为网站迁移、重定向映射或内容缺口分析编录所有已发布的 URL。
死链检测
将提取的 URL 提供给链接检查器,以查找 404 错误并检查断开的重定向链。
竞争对手分析
从竞争对手的站点地图中提取 URL,以映射其内容结构和发布频率。
FAQ
FAQ
什么是 XML 站点地图 (Sitemap)?
XML 站点地图是一个列出网站所有重要 URL 的文件,可帮助 Google 等搜索引擎有效地发现并索引您的页面。它通常位于 /sitemap.xml 或 /sitemap_index.xml。
我可以从站点地图索引文件中提取 URL 吗?
可以。我们的工具可以处理标准站点地图和链接到多个子站点地图的站点地图索引文件。所有的 <loc> 条目都会一次性提取出来。
提取的 URL 数量有限制吗?
没有硬性限制。该工具可以处理包含数万个 URL 的大型站点地图。处理非常大的文件可能需要几秒钟的时间。
我的数据私密吗?
绝对私密。上传的文件完全在您的浏览器中解析 —— 没有任何内容会被发送到我们的服务器。通过 URL 获取时,我们使用安全的代理,且不记录或存储任何数据。
支持哪些文件格式?
我们支持标准的 XML 站点地图 (.xml)、站点地图索引文件和纯文本 URL 列表 (.txt)。对于格式不正确的 XML,我们将通过正则表达式回退进行处理。
“移除参数”功能的作用是什么?
它将从每个 URL 中剥离查询字符串参数(问号 ? 之后的所有内容),仅保留基本路径。此操作后会自动移除重复的路径。