Content-type: text/html
Wget est non interactif c'est-à-dire qu'il peut travailler en arrière-plan, sans intervention de l'utilisateur. Ceci vous permet de lancer un téléchargement et de vous déconnecter du système, laissant Wget finir le travail. En revanche, la plupart des navigateurs Web requièrent la présence constante de l'utilisateur, ce qui est particulièrement pénible lorsqu'on transfère beaucoup de données.
Wget peut suivre les liens des pages HTML et XHTML et créer une copie locale de sites web distants, en récréant complètement la structure du site original. Ceci est parfois désigné sous le nom de « téléchargement récursif ». En faisant cela, Wget respecte le standard d'exclusion de robots (/robots.txt). Wget peut aussi convertir les liens dans les fichiers HTML téléchargés pour la consultation locale.
Wget a été conçu pour être robuste en dépit des connexions réseaux lentes ou instables : si un téléchargement échoue suite à un problème réseau, il réessayera jusqu'à ce que l'intégralité du fichier soit téléchargée. Si le serveur supporte la reprise, il lui demandera de reprendre là où le téléchargement s'est interrompu.
Cependant, si vous spécifiez --force-html, le document sera considéré comme étant du html. Dans ce cas vous pouvez avoir des problèmes avec les liens relatifs, problème qui se résout en ajoutant <base href="url"> aux documents ou en spécifiant --base=url sur la ligne de commande.
Quand Wget est lancé sans -N, -nc, ni -r, le téléchargement d'un même fichier dans un même répertoire préservera le fichier original fichier, les copies suivantes seront renommées fichier.1, fichier.2 et ainsi de suite. Si l'option -nc est spécifiée, ce comportement est supprimé, Wget ne téléchargera pas les nouvelles copies de fichier. C'est pourquoi no-clobber n'est pas un nom totalement adapté pour ce mode : ce n'est pas contre l'expulsion du fichier qu'elle protège (les suffixes numériques empêchent déjà le clobbering), mais elle empêche la sauvegarde des version multiples.
Quand Wget est lancé avec -r, mais sans -N ni -nc, le retéléchargement d'un fichier écrasera l'ancienne version de celui-ci. L'option -nc empêche ce comportement : la version originale est préservée et les nouvelles copies du serveur sont ignorées.
Quand Wget est lancé avec -N, indépendamment de -r, la décision de télécharger la nouvelle version du fichier dépend des dates du fichier local et distant et de la taille du fichier. -nc ne devrait pas être spécifié en même temps que -N.
Remarquez que si l'option -nc est spécifiée, les fichiers avec l'extension .html ou (beurk) .htm seront chargés depuis le disque local et analysés comme s'ils avaient été rapatriés depuis le Web.
wget -c ftp://sunsite.doc.ic.ac.uk/ls-lR.ZS'il y a un fichier nommé ls-lR.Z dans le répertoire courant, Wget supposera que c'est la première partie du fichier distant, et demandera au serveur de continuer le téléchargement à l'offset égal à la longueur du fichier local.
Remarquez que vous n'avez pas besoin de spécifier cette option si vous voulez que l'invocation courante de Wget réessaye de retélécharger un fichier parce que la connexion a été perdue. C'est le comportement par défaut. -c n'affecte que la reprise des téléchargements démarrés antérieurement à cette invocation de Wget, et dont les fichiers locaux sont encore présents.
Sans l'option -c, l'exemple précédent aurait juste téléchargé le fichier distant dans ls-lR.Z.1, laissant intact le fichier tronqué ls-lR.Z.
Depuis Wget 1.7, si vous utilisez -c sur un fichier non vide, et que le serveur ne supporte pas la reprise du téléchargement, Wget refusera de télécharger le fichier depuis zéro, ce qui détruirait le contenu existant. Si vous voulez vraiment recommencer le téléchargement depuis zéro, effacez le fichier.
Également depuis Wget 1.7, si vous utilisez -c sur un fichier de taille supérieure ou égale à celle du serveur, Wget refusera de télécharger le fichier et affichera un message d'explication car dans ce cas la reprise du téléchargement n'a aucun sens.
En revanche, l'utilisation de -c, sur tout fichier qui est plus grand sur le serveur que localement sera considéré comme un téléchargement incomplet ; les octets manquants seront téléchargés et ajoutés la fin du fichier. C'est vraiment pratique dans certains cas : par exemple vous pouvez utiliser, wget -c pour ne télécharger que la nouvelle portion de données qui ont été ajoutés à un fichier de log.
Toutefois, si le fichier est plus grand du côté du serveur parce qu'il a été modifié, par opposition à un simple ajout, vous vous retrouvez avec un fichier corrompu. Wget n'a aucun moyen de vérifier que le fichier local est réellement un préfixe valide du fichier distant. Vous devez faire attention quand vous utilisez simultanément -c et -r, puisque chaque fichier sera considéré comme un candidat à la reprise d'un téléchargement interrompu.
Autre exemple : vous récupérez un fichier corrompu si vous utilisez -c avec un proxy HTTP boiteux qui insère une chaîne « transfer interrupted » dans le fichier local. Dans le futur, une option retour en arrière pourrait être ajoutée pour s'occuper de ce cas.
Remarquez que -c ne fonctionne qu'avec les serveurs FTP et HTTP qui supportent l'en-tête Range.
Par défaut c'est la barre qui est utilisée. C'est une longue barre de progression ASCII pour matérialiser le téléchargement. Si la sortie n'est pas un terminal, les points seront utilisés. Si vous voulez forcer l'indicateur barre, utilisez --progress=bar:force.
--progress=dot permet de sélectionner l'affichage de points. Des points sont imprimés à l'écran pour matérialiser le téléchargement réussi d'une quantité déterminée de données.
Quand vous utilisez les points, vous pouvez aussi positionner le style en spécifiant dot:style. Les différents styles permettent de choisir la signification du point. Dans le style par défaut (default) chaque point représente 1K, il y a 10 points par bloc et 50 points par ligne. Le style binary est orienté ordinateur : 8 K par point, 16 points par bloc et 48 points par ligne (ce qui fait 384 K par ligne). Le style mega est plus adapté pour le téléchargement de très gros fichiers : chaque point représente 64 K il y a 8 points par bloc et 48 points sur chaque ligne (ce qui fait 3 M par ligne).
Remarquez qu'il est possible d'indiquer le style par défaut en utilisant la commande "progress" dans .wgetrc. Cette option a une priorité inférieure à celle de la ligne de commande.
wget --spider --force-html -i bookmarks.htmlCette caractéristique nécessite encore quelques efforts pour se rapprocher des fonctionnalités de véritable araignées WWW.
Veuillez ne pas diminuer la valeur par défaut du décompte sans savoir exactement ce que vous êtes en train de faire.
Remarquez que Wget implante la limitation en dormant la durée appropriée après une réception depuis le réseau qui a pris moins de temps que spécifié par le débit. Au bout du compte, cette stratégie ralentit le transfert TCP approximativement au débit requis. Cependant, il se peut que cela prenne un peu de temps avant de se stabiliser ; ne soyez pas surpris si cette limite n'est pas vraiment respectée lors du transfert de petits fichiers.
La spécification d'une durée importante est utile si le réseau ou l'hôte cible est coupé, aussi Wget peut attendre suffisamment longtemps que le réseau soit réparé avant de réessayer.
Remarquez que cette option est activée par défaut dans le fichier global .wgetrc.
Un article récent dans une publication consacrée au développement sur une plate-forme cliente populaire fournissait le code pour réaliser cette analyse au vol. Son auteur suggérait de bloquer les adresses de classe C pour s'assurer que les programmes de téléchargement seront bloqués en dépit des changements d'adresses dues au DHCP.
L'option --random-wait a été inspirée par ce conseil mal avisé de bloquer l'accès à un site web à de nombreux utilisateurs innocents en raison des actions d'un seul.
Pour plus d'information sur l'utilisation de proxys, voir la section Proxies de l'entrée GNU Info.
Remarquez que le quota n'affectera jamais le téléchargement d'un unique fichier. Aussi, si vous spécifiez wget -Q10k ftp://wuarchive.wustl.edu/ls-lR.gz, l'intégralité du fichier ls-lR.gz sera téléchargée. La même chose se produira si vous spécifiez plusieurs URL sur la ligne de commande. Wget ne tient compte du quota que pour les téléchargements récursifs ou depuis un fichier d'entrée. Aussi vous pouvez tapez sans crainte wget -Q2m -i sites : le téléchargement s'arrêtera lorsque le quota sera atteint.
Positionner le quota à 0 ou inf signifie aucun quota.
Toutefois, dans certains cas, il n'est pas désirable de garder en cache les noms d'hôte, même pour une durée courte telle que l'exécution de Wget. Par exemple, les serveurs HTTP qui sont hebergés sur des machines dont l'adresse IP est allouée dynamiquement et change fréquemment. Leur entrées DNS sont mises à jour à chaque changement. Quand le téléchargement depuis de tels hôtes est interrompu par un changement d'adresse IP, Wget réessaye de télécharger, mais (en raison du cache du DNS) il contacte l'ancienne adresse. Avec le cache DNS désactivé, Wget répétera la recherche DNS à chaque connexion, et ainsi obtiendra l'adresse dynamique correcte à chaque fois ; ceci au coût de recherches DNS supplémentaires et majoritairement inutiles.
Si vous ne comprenez pas la description ci-dessus, c'est que vous n'avez probablement pas besoin de cette option. (NDT : ou alors le traducteur s'est couché un peu trop tard !)
Par défaut Wget remplace les caractères considérés invalides dans les noms de fichiers par le système d'exploitation, ainsi que les caractères de contrôle qui, pour la plupart, ne sont pas affichables. Cette option est utile pour modifier ce comportement par défaut, soit parce que vous souhaitez enregistrer les fichier sur une partition non-native, soit parce que vous souhaitez garder les caractères de contrôle.
Quand le mode est mis à « unix », Wget remplace le caractère / ainsi que les caractères de contrôle faisant partie des ensembles 0-31 et 128-159. C'est le mode par défaut sur les systèmes d'exploitation à la UNIX.
Quand le mode est mis à « windows », Wget remplace les caractères \, |, /, :, ?, ", *, <, > ainsi que les caractères de contrôle faisant partie des ensembles 0-31 et 128-159. En plus de cela, dans le mode windows, Wget utilise + à la place de : pour séparer l'hôte du port dans les noms de fichiers locaux et utilise @ à la place de ? pour séparer la partie de requête du reste dans le nom de fichier. Ainsi, une URL qui serait sauvegardée sous le nom www.xemacs.org:4300/search.pl?input=blah en mode unix aurait le nom www.xemacs.org+4300/search.pl@input=blah en mode windows. Ce mode est celui par défaut sous Windows.
Si vous ajoutez ,nocontrol au mode, comme par exemple unix,nocontrol, le remplacement des caractères de contrôle est désactivé. Il est possible d'indiquer --restrict-file-names=nocontrol pour désactiver le remplacement des caractères de contrôle sans affecter le choix automatique du mode de restriction de caractère en fonction du système d'exploitation.
Par exemple, avec le répertoire ftp://ftp.xemacs.org/pub/xemacs/. Si vous le téléchargez avec l'option -r, il sera sauvegardé localement sous ftp.xemacs.org/pub/xemacs/. Alors que l'option -nH peut supprimer la partie ftp.xemacs.org/, vous êtes encore ennuyé avec pub/xemacs. C'est là que l'option --cut-dirs est intéressante ; elle permet de cacher à Wget n composantes du répertoire distant. Voici plusieurs exemples pour illustrer la fonctionnement de l'option --cut-dirs option.
pas d'option -> ftp.xemacs.org/pub/xemacs/ -nH -> pub/xemacs/ -nH --cut-dirs=1 -> xemacs/ -nH --cut-dirs=2 -> .
--cut-dirs=1 -> ftp.xemacs.org/xemacs/ ...
Si vous voulez juste vous débarrasser de la structure des répertoires, cette option est similaire à la combinaison -nd et -P. Cependant, contrairement à -nd, --cut-dirs ne se perd pas dans les sous-répertoires. Par exemple, avec -nH --cut-dirs=1, le sous-répertoire beta/ se retrouvera placé dans xemacs/beta, comme on s'y attend.
Remarquez que les noms de fichiers ainsi modifiés seront retéléchargés chaque fois que vous ferez une réplique du site, car Wget ne peut pas savoir que le fichier local X.html correspond à l'URL X distante (puisqu'il ne sait pas encore que l'URL produira une sortie de type texte/html ou application/xhtml+xml. Pour prévenir ce retéléchargement, vous devez utiliser -k et -K aussi la version originale de fichier sera sauvegardée sous le nom X.orig.
Une autre manière de spécifier le nom d'utilisateur et le mot de passe est d'utiliser l'URL elle-même. Les deux méthodes révèlent votre mot de passe à quiconque se donnant la peine de lancer "ps". Pour éviter que le mot de passe soit vu, stockez-le dans .wgetrc ou .netrc et assurez-vous que vous avez protégé ces fichiers des autres utilisateurs à l'aide de la commande "chmod". Si les mots de passe sont vraiment importants, supprimez-les de ces fichiers dès que Wget a terminé le téléchargement.
Pour plus d'informations en ce qui concerne les problèmes de sécurité, reportez-vous à la section Security Considerations de l'entrée GNU Info.
Le cache est autorisé par défaut.
Vous utiliserez cette option lorsque vous répliquerez des sites qui requièrent d'être authentifié pour accéder à leur contenu. Le processus d'authentification repose typiquement sur l'envoi d'un cookie HTTP pour recevoir et vérifier votre accréditation. Le cookie est alors renvoyé par le navigateur lorsque vous accédez à certaines parties du site pour prouver votre identité.
Faire une copie d'un tel site requiert que Wget envoie les mêmes cookies que votre navigateur lorsqu'il communique avec le site. Ceci est fait en indiquant l'emplacement du fichier cookies.txt avec --load-cookies. Wget enverra les même cookies que votre navigateur dans la même situation. Les navigateurs stockent leurs cookies dans des endroits différents :
Si vous ne pouvez pas utiliser --load-cookies, il reste encore une alternative. Si votre navigateur supporte le gestionnaire de cookies, vous pouvez l'utiliser pour voir les cookies utilisés pour l'accès au site que vous copiez. Recopier le nom et la valeur du cookie et dites manuellement à Wget d'envoyer ces cookies, en court-circuitant le support officiel des cookies :
wget --cookies=off --header "Cookie: <nom>=<valeur>"
Avec cette option, Wget ignorera l'en-tête « Content-Length », s'il est présent.
Vous pouvez définir plus d'un en-tête additionnel en utilisant plusieurs fois l'option --header.
wget --header='Accept-Charset: iso-8859-2' \ --header='Accept-Language: hr' \ http://fly.srk.fer.hr/La spécification d'une chaîne de caractères vide comme valeur d'en-tête effacera tous les en-têtes prédéfinis par l'utilisateur.
Les mêmes considérations sur la sécurité sont valables que pour l'option --http-passwd.
Le protocole HTTP autorise les clients à s'identifier eux-mêmes en utilisant le champ « User-Agent » dans l'en-tête. Ceci permet de distinguer les logiciels WWW, le plus souvent pour des buts statistiques ou pour tracer des violations de protocole. Wget s'identifie normalement sous le nom Wget/version, version étant la numéro de la version courante de Wget.
Cependant, certains sites sont connus pour imposer une politique de filtrage sur des clients en fonction de « User-Agent ». Si, conceptuellement, ce n'est pas une trop mauvaise idée, ça se traduit souvent par le refus de servir les clients autres que Mozilla ou Microsoft Internet Explorer. Cette option vous permet de falsifier la valeur de « User-Agent » envoyée par Wget. L'utilisation de cette option n'est pas recommandée, à moins que vous ne sachiez vraiment ce que vous êtes en train de faire.
Veuillez noter que Wget a besoin de connaître la taille des données POST à l'avance. Par conséquent l'argument à "--post-file" doit être un fichier normal, une FIFO des entrées telles que /dev/stdin ne fonctionnent pas. Il n'est pas vraiment certain comment cette limitation de HTTP/1.0 peut être contournée. Même si HTTP/1.1 introduit la notion de transferts en blocs qui ne requiert pas de connaître la taille à l'avance, un client ne peut utiliser cette fonction tant qu'il n'est pas sûr que le serveur supporte HTTP/1.1. Malheureusement, il n'est pas possible de le savoir avant que de recevoir la première réponse, ce qui requiert que la requête soit finie... le problème de l'oeuf et de la poule !
Remarquez que si Wget est redirigé après l'envoi de la requête POST, il ne transmettra pas les données POST à la nouvelle adresse. Ceci est dû au fait que souvent, les URL qui traitent le POST renvoient une redirection vers une page normale (même si, techniquement, ce n'est pas vraiment autorisé) qui ne désire pas ou ne supporte pas le POST. Il n'est pas encore clair si ce comportement est optimal ; si ça ne marche pas, ça changera.
L'exemple ci-dessous montre comment s'identifier sur un serveur en utilisant POST puis comment télécharger les pages souhaitées, qui ne sont accessible qu'aux utilisateurs autorisés :
# Identification sur le serveur. Cela peut être fait une seule fois. wget --save-cookies cookies.txt \ --post-data 'user=truc&password=bidule' \ http://server.com/auth.php
# Maintenant on peut récupérer tout ce qui nous intéresse. wget --load-cookies cookies.txt \ -p http://server.com/interesting/article.php
Remarquez que, même si Wget écrit dans un nom de fichier connu, ce n'est pas un trou de sécurité dans le scénario où un utilisateur crée un lien symbolique .listing vers /etc/passwd ou quelque chose d'autre et demande à root de lancer Wget dans son répertoire. En fonction de l'option utilisée, Wget refusera d'écrire dans .listing, faisant échouer l'opération d'écrasement, ou il supprimera le lien symbolique et le remplacera par le fichier .listing, ou le listing sera écrit dans un fichier .listing.number.
Même si cette situation n'est pas un problème, root ne devrait jamais lancer Wget dans le répertoire d'un utilisateur en qui il n'a pas confiance. Un utilisateur peut faire quelque chose d'aussi simple qu'un lien index.html vers /etc/passwd et demander à root de lancer Wget avec -N ou -r aussi le fichier sera remplacé.
wget ftp://gnjilux.srk.fer.hr/*.msgPar défaut, l'englobement est activé si l'URL contient un caractère générique. Cette option permet d'activer ou de désactiver l'englobement de manière permanente.
Vous pouvez avoir à protéger l'URL avec des guillemets pour empêcher le shell d'interpréter les caractères génériques. L'englobement oblige Wget à regarder un listing de répertoires, qui est dépendant du système. C'est pourquoi, pour le moment ça ne marche qu'avec les serveurs FTP Unix (et ceux qui émulent la sortie du « ls » Unix).
Cependant, quand --retr-symlinks est spécifié, les liens symboliques sont suivis et les fichiers désignés sont récupérés. Pour le moment, cette option ne permet pas à Wget de suivre les liens symboliques sur les répertoire pour y poursuivre sa récursion, mais ceci devrait être amélioré dans le futur.
Remarquez que cette option n'a aucun effet pour le téléchargement d'un fichier (et non un répertoire) si celui-ci a été spécifié sur la ligne de commande plutôt que rencontré lors de la récursion. Dans ce cas les liens symboliques sont toujours suivis.
wget -r -nd --delete-after http://whatever.com/~popular/page/L'option -r télécharge récursivement et -nd ne crée pas de répertoires.
Remarquez que --delete-after efface les fichiers sur la machine locale. Ça n'a rien à voir avec la commande DELE des serveurs FTP. Remarquez aussi que si --delete-after est spécifié, --convert-links est ignoré, et donc les fichiers .orig ne sont pas crées.
Chaque lien sera modifié de l'une des deux façons suivantes :
Exemple : si le fichier téléchargé /toto/doc.html a un lien vers /titi/image.gif, aussi téléchargé, alors le lien dans doc.html sera modifié pour pointer vers ../titi/image.gif. Ce type de transformation fonctionne très bien quelle que soit la combinaison de répertoires.
Exemple : si le fichier téléchargé /toto/doc.html a un lien vers /titi/image.gif (ou vers ../titi/image.gif), alors le lien dans doc.html sera modifié pour pointé vers http://nom-d-hote/titi/image.gif.
Grâce à ceci, la navigation locale fonctionne bien : si un fichier lié a été téléchargé, le lien désigne son nom local ; sinon, le lien désigne son nom Internet complet plutôt qu'un lien brisé. Le fait que les anciens liens soient convertis en liens relatifs vous permet de déplacer ailleurs les hiérarchies téléchargées.
Remarquez que Wget ne peut pas savoir avant la fin du téléchargement quels seront les liens téléchargés. C'est pourquoi le travail accompli par -k n'a lieu qu'après la fin de tous les téléchargements.
Ordinairement, lors du téléchargement d'une unique page HTML, les documents requis pour l'afficher proprement ne sont pas téléchargés. L'utilisation de -r et -l peut aider, mais puisque Wget ne fait pas d'ordinaire la distinction entre les documents externes et internes, on se retrouve parfois avec des « documents feuilles » qui n'ont pas leurs prérequis.
Par exemple, si le document 1.html contient une balise "<IMG>" référençant 1.gif et une balise "<A>" pointant vers un document externe 2.html. Et si 2.html est similaire mais que son image est 2.gif et qu'il a un lien vers 3.html. On peut aller loin comme ça.
Si on exécute la commande
wget -r -l 2 http://<site>/1.htmlalors 1.html, 1.gif, 2.html, 2.gif et 3.html seront téléchargés. Comme vous pouvez le constater, 3.html n'aura pas sa dépendance 3.gif parce Wget compte simplement le nombre de sauts (ici jusqu'à 2) depuis 1.html dans le but de déterminer où il doit arrêter la récursion. Cependant, avec cette commande :
wget -r -l 2 -p http://<site>/1.htmltous les fichiers ci-dessus et la dépendance 3.gif de 3.html seront télécharchés. Similairement,
wget -r -l 1 -p http://<site>/1.htmlprovoquera le téléchargement de 1.html, 1.gif, 2.html, et de 2.gif. On pourrait croire que :
wget -r -l 0 -p http://<site>/1.htmlne téléchargera que 1.html et 1.gif, mais malheureusement ce n'est pas le cas car -l 0 est équivalent à -l inf, la récursion infinie. Pour télécharger une unique page HTML (ou une poignée d'entre elles, toutes spécifiées sur la ligne de commande, ou dans un fichier d'entrée -i URL ) et leurs dépendances, laissez simplement de coté -r et -l :
wget -p http://<site>/1.htmlRemarquez que Wget se comportera comme si -r avait été spécifié, mais une seule page sera téléchargée, avec ses dépendances. Les liens de cette page vers des documents externes ne seront pas suivis. En réalité, pour télécharger une page unique avec ses dépendances, (même si celles-ci sont sur d'autres sites) et être sûr que tout s'affichera correctement en local, l'auteur utilise conjointement d'autres options :
wget -E -H -k -K -p http://<site>/<document>
Pour clore ce sujet, ça vaut la peine de connaître l'idée que se fait Wget d'un lien vers un document externe : c'est toute URL spécifiée dans une balise "<A>", "<AREA>", ou "<LINK>" autre que "<LINK REL="stylesheet">".
D'après les spécifications, les commentaires HTML sont représentés comme les déclarations SGML. Une déclaration est une balise spéciale qui commence par <! et se termine par >, tel que <!DOCTYPE ...>. Elles peuvent contenir des commentaires qui sont alors délimités du reste par une paire de --. Les commentaires HTML sont des « déclarations vides », des déclarations SGML qui ne contiennent que des commentaires. Par conséquent <!--truc---> est un commentaire valide, de même que <!--un--- --deux---> mais pas <!--1--2-->.
D'un autre coté, la plupart des auteurs HTML ne perçoivent les commentaires que comme du texte délimité par <!-- et -->, ce qui est légèrement différent. Par exemple, quelque chose comme <!------------> n'est un commentaire valide que s'il y a un nombre de tirets multiple de quatre ! Sinon, techniquement, le commentaire ne s'arrête qu'au prochain --, qui peut être situé à l'autre bout du document. À cause de cela, la plupart des navigateurs Web ignorent complètement la spécification et implantent la définition plus intuitive qu'un commentaire est délimité par <!-- et -->.
Jusqu'à la version 1.9 Wget interprétait les commentaires de manière stricte, ce qui provoquait parfois la disparition de certain liens dans des pages qui s'affichent correctement dans les navigateurs mais qui ont la malchance de contenir des commentaires non valides. Depuis la version 1.9, Wget a rejoint le cercle des clients qui implantent des commentaires « intuitifs », considérant la première occurrence de --> comme la fin d'un commentaire.
Si, pour une raison quelconque, vous souhaitez une analyse syntaxique stricte, utilisez cette option.
Dans le passé, l'option -G était la meilleure pour télécharger une page avec ses dépendances, en utilisant une ligne de commande comme :
wget -Ga,area -H -k -K -r http://<site>/<document>Cependant, l'auteur de cette option a trouvé des pages avec des balises comme <LINK REL="home" HREF="/"> et il réalisa que l'option -G n'était pas suffisante. On ne peut pas non plus dire à Wget d'ignorer <LINK>, sinon les feuilles de style ne seront pas téléchargées. Maintenant, pour télécharger une page unique avec ses dépendances, il y a l'option dédiée --page-requisites.
wget http://fly.srk.fer.hr/
wget --tries=45 http://fly.srk.fer.hr/jpg/flyweb.jpg
wget -t 45 -o log http://fly.srk.fer.hr/jpg/flyweb.jpg &L'esperluette à la fin de la ligne envoie Wget à l'arrière plan. Pour avoir un nombre infini de tentatives, utilisez -t inf.
wget ftp://gnjilux.srk.fer.hr/welcome.msg
wget ftp://prep.ai.mit.edu/pub/gnu/ links index.html
wget -i <file>Si vous spécifiez « - » comme nom de fichier, les URL seront lues depuis l'entrée standard.
wget -r http://www.gnu.org/ -o gnulog
wget --convert-links -r http://www.gnu.org/ -o gnulog
wget -p --convert-links http://www.server.com/dir/page.htmlLa page HTML sera sauvegardé dans www.server.com/dir/page.html, et les images, feuilles de styles, etc, quelque part dans www.server.com/, en fonction de l'endroit où elles étaient sur le serveur distant.
wget -p --convert-links -nH -nd -Pdownload \ http://www.server.com/dir/page.html
wget -S http://www.linuxfr.org/
wget -s http://www.linuxfr.org/ more index.html
wget -r -l2 -P/tmp ftp://wuarchive.wustl.edu/
wget -r -l1 --no-parent -A.gif http://www.server.com/dir/Explication : -r -l1 signifie téléchargement récursif, jusqu'à la profondeur 1. --no-parent signifie que les références au répertoire parent sont ignorées et -A.gif signifie de ne télécharger que les fichiers GIF. -A "*.gif" marche aussi.
wget -nc -r http://www.gnu.org/
wget ftp://mon_nom:mot_de_passe@unix.server.com/.emacs
wget -O - http://jagor.srce.hr/ http://www.srce.hr/Vous pouvez aussi combiner les deux options et fabriquer des pipelines pour télécharger des documents référencé par un autre site.
wget -O - http://cool.list.com/ | wget --force-html -i -
crontab 0 0 * * 0 wget --mirror http://www.gnu.org/ -o /home/me/weeklog
wget --mirror --convert-links --backup-converted \ http://www.gnu.org/ -o /home/me/weeklog
wget --mirror --convert-links --backup-converted \ --html-extension -o /home/me/weeklog \ http://www.gnu.org/Ou, en abrégé :
wget -m -k -K -E http://www.gnu.org/ -o /home/me/weeklog
Avant de soumettre un rapport de bogue, veuillez suivre les conseils simples suivants :
Bien que je sois aussi intéressé par le contenu du fichier .wgetrc, il ne faut pas le recopier directement dans le message de debug. Il vaut mieux essayer de reproduire le bogue avec un .wgetrc le plus simple possible. Seuls les paramètres de .wgetrc qui ont une influence sur le bogue, devrait être envoyés par courrier électronique.
Vous avez l'autorisation de créer et de distribuer des copies textuelles de ce manuel, à condition que la notice de copyright et la notice de permission soient préservées dans toutes les copies.
Vous avez l'autorisation de copier, distribuer et/ou modifier ce documents sous les conditions de la GNU Free Documentation License, Version 1.1 ou toute version ultérieure publiée par la Free Software Foundation; avec comme sections invariantes « GNU General Public License » et « GNU Free Documentation License », sans texte avant ou après. Une copie de la licence est incluse dans la section intitulée « GNU Free Documentation License ».
Mise à jour par Eric Piel, 2004 <Eric.Piel AT tremplin-utc POINT net>