Vuoi archiviare alcune pagine Web da leggere in seguito su qualsiasi dispositivo?  La risposta è convertire quei siti Web in PDF con Wget.

Come convertire più pagine Web in PDF con Wget

Annuncio pubblicitario Esistono molti strumenti online, estensioni del browser e plug-in desktop per trasformare una pagina Web in un PDF. Se usi regolarmente questi strumenti, potresti imbatterti in una situazione in cui devi convertire più collegamenti in una volta sola. Farli uno a uno è una perdita di tempo e noioso.

Annuncio pubblicitario

Esistono molti strumenti online, estensioni del browser e plug-in desktop per trasformare una pagina Web in un PDF. Se usi regolarmente questi strumenti, potresti imbatterti in una situazione in cui devi convertire più collegamenti in una volta sola. Farli uno a uno è una perdita di tempo e noioso.

È possibile automatizzare questa attività tramite una semplice utility da riga di comando chiamata Wget. Con l'aiuto di alcuni script o app e questo strumento, ti mostreremo come salvare più pagine Web in un file PDF.

Perché Wget?

Wget è un pacchetto software gratuito per scaricare file dal Web. Ma è anche uno strumento perfetto per eseguire il mirroring di un'intera pagina Web sul tuo computer. Ecco i motivi:

  • Non è interattivo, il che significa che può funzionare in background e ti consente di trasferire i dati senza richiedere la tua presenza.
  • Wget comprende la struttura delle directory del sito Web. Può seguire i collegamenti nella pagina HTML, per creare una versione locale del sito Web remoto. Nel processo, rispetta anche il file robots.txt.
  • Può funzionare anche con connessioni di rete lente o instabili. Se il server supporta la reimpostazione, continuerà a riprovare fino a quando l'intero file non verrà trasferito sul computer.
  • Wget supporta server proxy. Aiuta a alleggerire il carico della rete, accelerare il processo di recupero e fornire accesso dietro i firewall.

Installazione di Wget

Su macOS

Il modo più rapido per installare Wget è tramite Homebrew. È un gestore di pacchetti per macOS per installare utili utility e app Unix. Dai un'occhiata a questo articolo su come installare app macOS tramite Homebrew. Quindi digitare

 brew install wget 

Avrai progressi in tempo reale sull'installazione di tutti gli strumenti (se presenti) necessari per l'esecuzione di Wget sul tuo Mac. Se hai già installato Homebrew, assicurati di eseguire brew upgrade per ottenere l'ultima versione di questa utility.

Su Windows 10

Esistono molte versioni di Wget disponibili per Windows 10. Vai su Eternally Board per scaricare l'ultima build a 64 bit. Inserire il file eseguibile in una cartella e copiarlo nell'unità C :.

installa la posizione di wget in Windows

Ora aggiungeremo il percorso Wget alla variabile di ambiente del tuo sistema per eseguire questo strumento da qualsiasi directory. Passare a Pannello di controllo> Sistema e fare clic su Impostazioni di sistema avanzate . Nella finestra che si apre, fai clic su Variabili d'ambiente .

fare clic su variabile d'ambiente nelle impostazioni di sistema avanzate

Seleziona Percorso in Variabili di sistema e fai clic su Modifica . Quindi, fai clic sul pulsante Nuovo situato nell'angolo in alto a destra della finestra. Digita C: \ wget e fai clic su OK .

aggiungi wget alla variabile di ambiente di sistema

Apri il prompt dei comandi e digita wget-h per verificare se tutto funziona. In PowerShell digitare wget.exe -h per caricare il menu della guida di Wget.

esegui wget dal prompt dei comandi

Salva i tuoi collegamenti in un file di testo

Poiché abbiamo a che fare con più collegamenti, incollare i collegamenti uno a uno è un compito difficile. Per fortuna, ci sono estensioni del browser per aiutarti a completare questa attività.

Link Klipper: estrae tutti i collegamenti in una pagina Web come file CSV o TXT. È anche possibile trascinare un'area rettangolare sulla pagina Web per copiare in modo selettivo i collegamenti. Il file viene salvato nella cartella Download .

estensione cromata per link klipper

Snap Links Plus: questo ti consente di aggiungere elementi lazo su una pagina e fare cose con essi. Tenere premuto il pulsante destro del mouse e trascinare un rettangolo di selezione attorno ai collegamenti. Premi il tasto Control e copia i tuoi collegamenti negli appunti.

Impostazione di una directory

Wget funziona come un crawler Web estraendo risorse di pagine Web dai file HTML, inclusi logo, caratteri, miniature di immagini, CSS e file JavaScript. Prova anche a creare una struttura di directory simile al server remoto. Crea una directory separata per i download di Wget per salvare pagine Web e anche per evitare disordine.

Sul tuo Mac Terminal o in un Prompt dei comandi su Windows, inserisci

 mkdir Wgetdown 

Questo crea una nuova cartella nella directory Home. Puoi nominarlo come preferisci. Quindi, inserisci

 cd Wgetdown 

Cambia directory. Questo cambia l'attuale directory di lavoro in Wgetdown.

Dettagli dei comandi Wget

Dopo aver creato la directory, useremo l'attuale comando Wget

 wget -E -H -k -K -p -i [Path to Your Text File] 

Wget utilizza GNU getopt per elaborare gli argomenti della riga di comando. Ogni opzione ha una forma lunga insieme a quelle brevi. Le opzioni lunghe sono convenienti da ricordare ma richiedono del tempo per scrivere. Puoi anche mescolare diversi stili di opzione. Andiamo nei dettagli di queste opzioni:

  • -E (–adjust-extension) : se viene scaricato un file di tipo “app / xhtml + xml” o “text / html” e l'URL non termina con l'HTML, questa opzione aggiungerà l'HTML al nome del file.
  • -H (–span-hosts) : quando si tenta di recuperare i collegamenti in modo ricorsivo, non si desidera recuperare un sacco di dati non necessari. Vuoi che Wget segua solo link specifici. Questa opzione attiva lo spanning dell'host, che consente alla corsa ricorsiva di Wget di visitare qualsiasi host a cui fa riferimento un collegamento. Ad esempio, le immagini sono state offerte da un host diverso.
  • -p (–page-requisites) : questa opzione scarica tutti i file necessari per visualizzare una pagina HTML. Include immagini incorporate, audio e fogli di stile di riferimento.
  • -k (–convert-links) : converte i collegamenti nel documento per renderli adatti alla visualizzazione offline. Include immagini incorporate, collegamenti a fogli di stile, collegamenti ipertestuali a contenuti non HTML e altro ancora.
  • -K (convertito in backup) : durante la conversione di un file, questa opzione esegue il backup della versione originale con un suffisso .orig .
  • -i (–input-file) : legge gli URL da un percorso al file locale o esterno.

Mettere in uso i comandi

Per dimostrare questi comandi in pratica, prendere in considerazione un manuale del sito Web chiamato Writing Workflows. Questo manuale è costituito da un sommario con un collegamento a singoli capitoli. L'obiettivo finale è quello di creare un file PDF separato di quelle sezioni.

Passaggio 1 : aprire Terminale e creare una nuova cartella, come discusso sopra.

creare una cartella tramite Terminale

Passaggio 2 : utilizzare l'estensione Link Klipper per salvare i collegamenti come file di testo. Salva il tuo file nella cartella Download .

aggiungere collegamenti tramite l'estensione klipper di collegamento

Passaggio 3 : mentre ti trovi nella cartella Wgetdown, digita

 wget -E -H -k -K -p -i /Users/rahulsaigal/Downloads/links.txt 

mettendo in uso i comandi wget

Passaggio 4 : premere Invio. Attendere il completamento del processo.

comando wget in corso

Passaggio 5 : passa alla cartella Wgetdown. Vedrai la cartella elaborata.net dominio principale con tutte le risorse della pagina web e capitolo1.html.

file scaricati con tutte le risorse

Conversione da HTML a PDF

La conversione di una pagina Web in PDF sembra semplice. Ma farli apparire come la pagina web originale è un compito difficile. La produzione di un risultato desiderabile dipende da:

  • Font di sistema disponibili.
  • L'integrità del markup HTML.
  • Funzionalità necessarie per supportare tabelle o immagini mobili.
  • Opzionalmente sommario.

Windows 10

PrinceXML è un'app per convertire rapidamente i file HTML in PDF. Ti consente di comporre, formattare e stampare contenuti HTML con layout configurabile e supporto per gli standard web. Viene fornito con molti caratteri utili e consente anche di personalizzare l'output PDF. L'app è gratuita per uso non commerciale.

app princexml per convertire html in pdf

Mac OS

Sul tuo Mac, puoi creare un servizio di Automator per convertire un batch di file HTML in PDF. Apri Automator e crea un documento Quick Action . Imposta l'opzione di servizio per ricevere file o cartelle dal Finder. Quindi trascinare Esegui script shell e impostare l' opzione di input Passa su come argomenti . Quindi, incolla questo script nel corpo

 for theFileToProcess in " " do cupsfilter "$theFileToProcess" > "${theFileToProcess%.*}.pdf" done 

Salva il file come HTML2PDF.

script shell per convertire i file su Mac

Ora seleziona tutti i file HTML nel Finder. Fare clic con il tasto destro del mouse e selezionare Servizi> HTML2PDF . Attendi qualche istante per convertire tutti i tuoi file.

converti un sacco di file html con questo script

Modi per convertire una singola pagina Web in PDF

A prima vista, i passaggi necessari per convertire più pagine Web in PDF sembrano complicati. Ma una volta compresi i passaggi e il processo, si risparmia tempo a lungo termine. Non è necessario spendere soldi per abbonamenti Web o costosi convertitori PDF.

Se stai cercando modi per trasformare una singola pagina Web in PDF, leggi questo pezzo su come convertire le pagine Web in PDF 3 semplici modi per convertire pagine Web in PDF 3 semplici modi per convertire pagine Web in PDF Puoi convertire una pagina Web in PDF e leggilo offline. Ecco gli strumenti più semplici che fanno il lavoro su qualsiasi dispositivo. Leggi di più .

Scopri di più su: PDF, Wget.