Wget-Windows 版本,直接解压使用。

 .\wget.exe -c -t 0 -r -l inf -p --restrict-file-names=windows -A.html https://www.baidu.com
.\wget.exe -c -t 0 -r -l inf --page-requisites --restrict-file-names=nocontrol https://www.baidu.com

该命令使用wget工具从指定网站下载网页,具体解释如下:

这条命令的目的是从https://linji.cn网站递归下载所有.html文件,包括相关的页面元素,支持断点续传,不进行重试,并且规范文件名以确保下载顺利进行 。


wget 有很多其他实用的参数,下面为你详细介绍一些常见参数:

网络相关参数

下载行为相关参数

过滤和范围相关参数

认证相关参数


如何使用wget下载整个网站?

使用wget下载整个网站可以通过合理组合其参数来实现,下面为你详细介绍操作步骤及相关参数示例:

基本命令示例

以下是一个能下载整个网站的常用wget命令示例:

wget -r -l inf -p -k -E --restrict-file-names=windows --domains=example.com https://example.com

参数解释

  1. -r
    • 含义:开启递归下载模式。这意味着wget会从指定的起始页面开始,自动下载该页面中所有链接指向的页面,逐层深入,从而获取整个网站的内容。
    • 示例影响:如果起始页面有指向其他页面的链接,wget会继续下载这些链接页面,以此类推。
  2. -l inf
    • 含义:设置递归的深度为无穷大(inf是“infinite”的缩写)。保证wget会尽可能深入地下载网站的所有层级页面,不会因为预设的层数限制而停止。
    • 示例影响:无论网站结构有多深,wget都会尝试下载所有层级的页面。
  3. -p
    • 含义:下载所有为了使所下载页面正常显示而需要的元素,如图片、CSS样式表、JavaScript脚本等资源。这些元素对于完整呈现网页的样式和功能至关重要。
    • 示例影响:下载的页面在本地打开时,能够正确显示样式和执行脚本,就像在浏览器中访问一样。
  4. -k
    • 含义:将下载的页面中的链接转换为适合本地浏览的形式。当页面下载到本地后,原本指向网站内其他页面或资源的链接会被修改为指向本地相应文件的路径,方便在本地离线浏览整个网站。
    • 示例影响:在本地打开下载的页面时,点击页面中的链接可以正常跳转到本地对应的页面。
  5. -E
    • 含义:在下载的文件扩展名后面添加合适的后缀,通常是根据文件的实际类型添加,如.html.css等。这样可以确保文件的扩展名与内容类型一致,便于识别和使用。
    • 示例影响:如果下载的是一个HTML页面,文件名将以.html结尾,方便后续查看和处理。
  6. --restrict-file-names=windows
    • 含义:限制文件名的字符,确保生成的文件名符合Windows操作系统的命名规则。避免因文件名包含Windows不允许的字符(如/\:等)而导致下载失败或文件无法正常保存。
    • 示例影响:在Windows系统上下载时,能保证所有文件都可以正常命名和保存。
  7. --domains=example.com
    • 含义:限制递归下载的范围,只下载指定域名(这里是example.com)下的页面和资源。防止wget下载到外部链接指向的其他网站的内容,确保只获取目标网站的信息。
    • 示例影响:如果页面中包含指向其他域名的链接,wget不会对其进行下载。

注意事项