Przeglądaj źródła

ignore robots.txt when using wget

Nick Sweeting 6 lat temu
rodzic
commit
e6d5cd4432
1 zmienionych plików z 1 dodań i 0 usunięć
  1. 1 0
      archivebox/archive_methods.py

+ 1 - 0
archivebox/archive_methods.py

@@ -217,6 +217,7 @@ def fetch_wget(link_dir, link, requisites=FETCH_WGET_REQUISITES, warc=FETCH_WARC
         '--backup-converted',
         '--span-hosts',
         '--no-parent',
+        '-e', 'robots=off',
         '--restrict-file-names=unix',
         '--timeout={}'.format(timeout),
         *(() if warc else ('--timestamping',)),