Content-type: text/html
Manpage of LINKCHECKER
LINKCHECKER
Section: (1)
Updated: 10 mars 2001
Index
Return to Main Contents
NOM
linkchecker - outil permettant de vérifier s'il n'y a pas de liens cassés dans vos documents HTML
SYNOPSIS
linkchecker
[
options
]
[
fichier-ou-url
]
DESCRIPTION
LinkChecker propose
une vérification récursive,
du multithreading,
un affichage en couleurs ou au format texte, HTML, SQL, CSV,
mais aussi un graphique de la carte du site en GML ou XML,
un support de HTTP/1.1, HTTPS, FTP, mailto:, news:, nntp:,
Gopher, Telnet et les liens sur les fichiers locaux,
une vérification des liens restreinte par l'utilisation de filtres à base d'expressions rationnelles,
un support des proxys,
des autorisations nom utilisateur/mot de passe pour HTTP et FTP,
un support du protocole d'exclusion par le fichier robots.txt,
un support de l'internationalisation,
une interface ligne de commandes et
une interface web CGI (rapide, qui nécessite un serveur HTTP).
EXEMPLES
L'utilisation la plus courante est de vérifier le domaine récursivement, ainsi que
quelques URL simples pointant en dehors du domaine :
linkchecker http://treasure.calvinsplayground.de/
Faites attention, car ceci vérifie le site en entier, celui-ci pouvant avoir plusieurs centaines
de milliers d'URL. Utilisez l'option -r pour restreindre la profondeur de la récursion.
Pour ne pas se connecter aux hôtes mailto:, seulement vérifier leur syntaxe.
Tous les autres liens sont vérifiés comme d'habitude :
linkchecker --intern='!^mailto:' --extern-strict-all www.mysite.org
Pour vérifier un fichier HTML local sur Unix :
linkchecker ../bla.html
Pour vérifier un fichier HTML local sur Windows :
linkchecker c:\temp\test.html
Vous pouvez ne pas mettre la partie http:// de l'URL si le nom de domaine commence par www. :
linkchecker www.myhomepage.de
Vous pouvez ne pas mettre la partie ftp:// de l'URL si le nom de domaine commence par ftp. :
linkchecker -r0 ftp.linux.org
OPTIONS
Options générales
- -h, --help
-
Afficher des informations sur l'utilisation du programme.
- -fconfigfile, --config=configfile
-
Utiliser configfile comme fichier de configuration. LinkChecker recherche d'abord
/etc/linkchecker/linkcheckerrc puis ~/.linkcheckerrc.
- -I, --interactive
-
Demander l'URL si aucune n'a été donnée sur la ligne de commande.
- -V, --version
-
Afficher la version et quitter.
- -tnum, --threads=num
-
Permettre de ne pas avoir plus de num threads. Le nombre de threads est fixé par défaut à 10.
Pour désactiver le multithreading, spécifier un nombre non positif.
Options de sortie
- -v, --verbose
-
Journaliser toutes les URL vérifiées (implique -w). Par défaut, seules les URL invalides
sont mises dans le journal.
- -w, --warnings
-
Journaliser les avertissements.
- -Wregex, --warning-regex=regex
-
Définir une expression rationnelle. Quand cette expression rationnelle correspondra au contenu d'un lien vérifié, LinkChecker affichera un avertissement.
Ceci ne s'applique qu'aux pages valides, car on peut ainsi récupérer leur contenu.
Utilisez ceci afin de vérifier les pages qui peuvent contenir des messages d'erreur sous une certaine forme, comme par exemple 'Cette page a été déplacée' ou 'Erreur du serveur d'application Oracle'.
Cette option implique -w.
- --warning-size-bytes=octets
-
Affiche un avertissement si la taille du contenu disponible dépasse le nombre d'octets donné.
Cette option implique -w.
- -q, --quiet
-
Exécution silencieuse, c'est un alias pour -o none.
Cette option n'est utile qu'avec -F.
- -otype, --output=type[/encodage]
-
Spécifier le type de sortie. Les types possibles sont text, html, sql, csv, gml, xml, none ou blacklist. Le type par défaut est text. Les différents types de sortie sont documentés ci-dessous.
encodage permet de spécifier l'encodage de sortie, la valeur par défaut étant iso-8859-15.
Les encodages valides sont disponibles sur http://docs.python.org/lib/node127.html.
- -Ftype[/encodage][/nom_fichier], --file-output=type[/encodage][/nom_fichier]
-
Enregistrer la sortie dans un fichier linkchecker-out.type,
$HOME/.linkchecker_blacklist pour la sortie blacklist, ou dans nom_fichier si spécifié.
encodage permet de spécifier l'encodage de sortie, la valeur par défaut étant iso-8859-15.
Les encodages valides sont disponibles sur http://docs.python.org/lib/node127.html.
La partie nom_fichier du type de sortie none est ignorée, sinon, si le fichier existe déjà, il sera écrasé.
Vous pouvez spécifier l'option plusieurs fois. Les types de sortie valides pour les fichiers sont text, html, sql,
csv, gml, xml, none ou blacklist.
Par défaut, il n'y a pas de fichier de sortie. Les différents types de sortie sont documentés ci-dessous. Il faut noter que vous pouvez supprimer toutes les sorties console avec l'option -o none.
- --no-status
-
Ne pas afficher les messages d'état de la vérification.
- -Dlogger, --debug=logger
-
Afficher les sorties de débogage pour l'enregistreur de journal logger.
Les enregistreurs disponibles sont : cmdline, checking,
cache, gui and all.
all est un alias pour indiquer que l'on veut tous les enregistreurs disponibles.
Cette option peut être donnée plusieurs fois pour déboguer avec plus d'un enregistreur de journal.
Lemultithreadingestdésactivépendantuneexécutionenmodedebugafindegarantirlaprécisiondesrésultats.
- --profile
-
Écrire les données de profilage dans un fichier nommé linkchecker.prof
dans le répertoire de travail courant. Voir aussi --viewprof.
- --viewprof
-
Afficher en sortie les données de profilage générées précédemment. Voir aussi --profile.
Options de vérification
- -rdepth, --recursion-level=profondeur
-
Vérifier récursivement tous les liens jusqu'à une profondeur donnée. Une profondeur négative permet d'avoir une récursion infinie. Par défaut, la récursion est infinie.
- -iregex, --intern=regex
-
Supposer que les URL correspondant à l'expression rationnelle donnée sont internes. LinkChecker ne descend récursivement que sur les URL internes, et pas sur les externes.
- -eregex, --extern=regex
-
Supposer que les URL correspondant à l'expression donnée sont externes. Seuls les liens HTML internes sont vérifiés récursivement.
- --extern-strict=regex
-
Supposer que les URL correspondant à l'expression donnée sont strictement externes. Seuls les liens HTML internes sont vérifiés récursivement.
- -s, --extern-strict-all
-
Ne vérifier que la syntaxe des liens externes, sans que l'on essaie de s'y connecter. Pour les URL locales, seuls les fichiers locaux sont internes. Pour les URL HTTP et FTP, toutes les URL avec le même nom de domaine sont internes.
- -d, --denyallow
-
Inverser l'ordre de vérification en externe/interne. L'ordre de vérification par défaut est interne/externe.
- -C, --cookies
-
Accepter et envoyer des cookies HTTP en accord avec le RFC 2109. Seuls les cookies qui sont renvoyés au serveur d'origine sont acceptés. Les cookies acceptés et envoyés sont fournis comme une information supplémentaire dans les journaux.
- -a, --anchors
-
Vérifier les références ancrées. Cette option s'applique aux URL internes et externes. Par défaut, il n'y a pas de vérification des ancres. Cette option implique -w parce que les erreurs d'ancre sont toujours des avertissements.
- --no-anchor-caching
-
Traiter url#anchora et url#anchorb comme égales dans le cache. Ceci est le comportement par défaut d'un navigateur, mais n'est pas spécifié dans la spécification URI. À utiliser avec précaution.
- -unom, --user=nom
-
Essayer le nom d'utilisateur nom pour l'autorisation HTTP et FTP. Pour FTP, le nom d'utilisateur par défaut est anonymous. Voir aussi -p.
- -ppwd, --password=pwd
-
Essayer le mot de passe pwd pour l'autorisation HTTP et FTP. Pour FTP, le mot de passe par défaut est anonymous@. Voir aussi -u.
- --timeout=secs
-
Préciser le délai d'expiration pour les attentes de connexion en secondes. Le délai par défaut est de 30 secondes.
- -Psecs, --pause=secs
-
Mettre en pause secs secondes entre chaque vérification d'URL. Cette option implique -t0. Par défaut, il n'y a pas de pause entre les requêtes.
- -Nserveur, --nntp-server=serveur
-
Spécifier un serveur NNTP pour les liens « news: ». Par défaut, la variable d'environnement NNTP_SERVER est utilisée. Si aucun hôte n'est donné, LinkChecker n'effectue qu'une vérification de la syntaxe du lien.
Options obsolètes
- --status
-
Afficher l'état des vérifications toutes les 5 secondes sur la sortie d'erreur. C'est le comportement par défaut.
OUTPUT TYPES
Notez que seules les erreurs sont journalisées par défaut.
- text
-
Sortie texte standard, journaliser les URL dans des mots clés : mode argument.
- html
-
Journaliser les URL dans des mots clés : mode argument, formaté en HTML. Contient aussi des liens vers les pages référencées. Les URL invalides ont aussi en plus une vérification syntaxique des liens HTML et CSS.
- csv
-
Journaliser le résultat de la vérification au format CSV avec une URL par ligne.
- gml
-
Journaliser les relations fils/père entre les URL liées dans un graphe GML. Vous devez utiliser l'option --verbose pour avoir un graphe complet.
- xml
-
Journaliser le résultat de la vérification dans un fichier au format XML.
- sql
-
Journaliser le résultat dans un script SQL avec des commandes INSERT. Un script d'exemple montrant la création de la table SQL initiale est inclus : create.sql.
- blacklist
-
Approprié pour les tâches cron. Journaliser le résultat de la vérification dans un fichier ~/.blacklist qui ne contient que les entrées avec des URL invalides et le nombre de fois qu'elles ont échoué.
- none
-
Ne rien journaliser du tout. Approprié pour les scripts.
NOTES
Un ! avant une expression rationnelle l'inverse. Ainsi '!^mailto:' correspond à tout sauf un lien mailto.
Les URL sur la ligne de commande commençant par ftp. sont traitées comme ftp://ftp., les URL commençant par www. sont traitées comme http://www..
Vous pouvez aussi mettre des noms de fichiers locaux comme arguments.
Si votre système est configuré pour établir automatiquement une connexion à internet (par exemple, avec diald), il se connectera quand les liens de vérification ne pointent pas sur votre système local.
Utilisez les options -s et -i pour éviter cela.
Les liens javascript sont ignorés actuellement.
Si votre plate-forme n'accepte pas le multithreading, LinkChecker utilise -t0.
Vous pouvez fournir plusieurs paires nom d'utilisateur/mot de passe dans un fichier de configuration.
Pour utiliser les proxys, positionnez $http_proxy, $https_proxy sur Unix ou Windows.
Sur un Mac, utilisez la configuration Internet.
Pour la vérification des liens news:, les liens de l'hôte NNTP donné n'ont pas besoin d'être les mêmes que l'hôte de l'utilisateur naviguant.
ENVIRONNEMENT
NNTP_SERVER - spécifie le serveur NNTP par défaut
http_proxy - spécifie le proxy HTTP par défaut
ftp_proxy - spécifie le proxy FTP par défaut
LC_MESSAGES, LANG - spécifie la langue en sortie
FICHIERS
/etc/linkchecker/linkcheckerrc, ~/.linkcheckerrc - fichiers de configuration par défaut
~/.blacklist - fichier par défaut des blacklists pour la journalisation
linkchecker-out.type - fichier par défaut pour la journalisation
http://docs.python.org/lib/node127.html - encodages valides de sortie
AUTEUR
Bastian Kleineidam <calvin@users.sourceforge.net>
TRADUCTION
Ce document est une traduction, réalisée par Yann Verley <yann.verley@free.fr> le 29 novembre 2004.
L'équipe de traduction a fait le maximum pour réaliser une adaptation française de qualité.
La version anglaise la plus à jour de ce document est toujours consultable via la commande :
LANGUAGE=en man linkchecker
N'hésitez pas à signaler à l'auteur ou au traducteur, selon le cas, toute erreur dans cette page de manuel.
Index
- NOM
-
- SYNOPSIS
-
- DESCRIPTION
-
- EXEMPLES
-
- OPTIONS
-
- Options générales
-
- Options de sortie
-
- Options de vérification
-
- Options obsolètes
-
- OUTPUT TYPES
-
- NOTES
-
- ENVIRONNEMENT
-
- FICHIERS
-
- AUTEUR
-
- TRADUCTION
-
This document was created by
man2html,
using the manual pages.
Time: 20:41:57 GMT, July 10, 2005