Content-type: text/html
file teste chaque argument pour essayer de le classifier. Il y a trois types de tests, effectués dans cet ordre : tests de système de fichiers, tests de nombre magique, et tests de langage. Le premier test qui réussit provoque l'affichage du type du fichier.
Le type affiché contient en général l'un des mots text (le fichier ne contient que des caractères imprimables et quelques caractères de contrôle courants, et peut probablement être lu sans peine sur un terminal ASCII), executable (le fichier contient le résultat de la compilation d'un programme dans une forme compréhensible par certains noyaux UNIX ou autres), ou data signifiant tout le reste (les données sont en général de type « binary », c.-à-d. binaires, ou « non-printable », c.-à-d. non affichables). Les exceptions sont les formats de fichiers bien connus (fichiers core, archives tar) dont on sait qu'ils contiennent des données binaires. Quand vous modifiez le fichier /usr/share/magic ou le programme lui-même, conservez ces mots-clés. Certains programmes se reposent sur le fait que tous les fichiers accessibles en lecture dans un répertoire doivent être présentés sous le terme « text » (texte) par file. Ne faites pas comme Berkeley (NDT : BSD) qui a remplacé l'expression « shell commands text » (texte de commandes shell) par « shell script » (script shell). Notez que le fichier /usr/share/magic est construit mécaniquement à partir d'un tas de petits fichiers situés dans le sous-répertoire Magdir de la distribution du code source de ce programme.
Les tests de système de fichiers sont basés sur l'examen de la sortie de l'appel système stat(2). Le programme vérifie si le fichier est vide, ou s'il s'agit d'un certain type de fichier spécial. Tous les types de fichiers connus appropriés à votre système (sockets, liens symboliques ou tubes nommés (FIFOs) sur les systèmes qui les implémentent) sont reconnus lorsqu'ils sont définis dans le fichier d'en-tête système <sys/stat.h>.
Les tests de nombres magiques sont utilisés pour rechercher des fichiers contenant des données dans des formats fixes particuliers. L'exemple typique est un exécutable binaire (programme compilé) a.out, dont le format est défini dans a.out.h, et peut-être aussi dans exec.h dans le répertoire d'inclusion standard. Ces fichiers contiennent un « nombre magique » qui indique au système d'exploitation UNIX que le fichier est un exécutable binaire, et qui donne le type précis parmi ces multiples types possibles. Le concept de « nombre magique » a été appliqué par extension aux fichiers de données. Tout fichier contenant un identificateur invariable à un endroit fixé peut d'habitude être décrit de cette façon. Les informations identifiant ces fichiers sont lues à partir du fichier magique compilé /usr/share/magic.mgc, ou /usr/share/magic si le fichier compilé n'existe pas.
Si un fichier ne correspond à aucune des entrées du fichier magique, il est examiné afin de voir s'il semble être un fichier texte. Les jeux de caractères ASCII, ISO-8859-x, et ASCII étendu 8 bits non ISO (comme ceux utilisés sur les systèmes Macintosh et PC IBM), ainsi que les jeux de caractères Unicode encodés en UTF-8 ou en UTF-16, et EBCDIC peuvent être différenciés par l'intermédiaire des différents intervalles et séquences d'octets qui sont imprimables dans chaque jeu. Si un fichier passe avec succès l'un de ces tests, son jeu de caractères est rapporté. Les fichiers ASCII, ISO-8859-x, UTF-8, et ASCII étendu sont identifiés en tant que « text » (texte) car ils sont pour la plupart lisibles sur pratiquement n'importe quel terminal ; UTF-16 et EBCDIC ne sont que des « character data » (données caractères) car, bien qu'elles contiennent du texte, celui-ci requiert une traduction avant de pouvoir être lu. De plus, file essaiera de déterminer d'autres caractéristiques des fichiers de type texte. Si les lignes d'un fichier sont terminées par CR, CRLF, ou NL, au lieu du LF standard sous Unix, cela sera rapporté. Les fichiers qui contiennent des séquences d'échappement ou du overstriking (NDT : ?) seront également identifiés.
Une fois que file a déterminé le jeu de caractères utilisé dans un fichier de type texte, il essaie de déterminer dans quel langage le fichier est écrit. Les tests de langage recherchent des chaînes de caractères particulières (cf. names.h) qui peuvent apparaître n'importe où dans les premiers blocs d'un fichier. Par exemple, le mot-clé .br indique que le fichier est plus que probablement un fichier d'entrée troff(1), de la même façon que le mot-clé struct indique un programme C. Ces tests sont moins fiables que les deux autres types de tests, et sont donc pratiqués en dernier lieu. Les routines de tests de langage testent également quelques types divers (comme les archives tar(1)).
Tout fichier qui ne peut être identifié comme ayant été écrit dans l'un des jeux de caractères listés plus haut sera rapporté comme étant du type « data » (données).
/usr/share/magic - liste des nombres magiques par défaut.
/usr/share/magic.mime - liste des nombres magiques par défaut, utilisée pour produire des types mime quand l'option -i est spécifiée.
La seule différence significative entre cette version et celle de System V
est que cette version considère n'importe quelle espace blanche comme un
délimiteur, de sorte que les espaces dans les chaînes de caractères de
motifs doivent être protégées. Par exemple,
>10 string language impress (données imPRESS)
d'un fichier magique existant devrait être changé en
>10 string language\ impress (données imPRESS)
En plus, dans cette version, si une chaîne de caractères de motif contient
un backslash, il doit être protégé. Par exemple,
0 string \begindata document Andrew Toolkit
d'un fichier magique existant devrait être changé en
0 string \\begindata document Andrew Toolkit
Les versions 3.2 et ultérieures de SunOS de Sun Microsystems incluent une
commande
file(1)
dérivée de celle de System V, mais avec quelques extensions. Ma version ne
diffère que peu de celle de Sun. Elle inclut l'extension de l'opérateur
« & » utilisé, par exemple, dans
>16 long&0x7fffffff >0 not stripped
L'ordre des entrées présentes dans le fichier magique est important. En fonction du système que vous utilisez, l'ordre dans lequel elles sont placées peut être incorrect. Si votre ancienne commande file utilise un fichier magique, gardez quelque part l'ancien fichier magique pour pouvoir effectuer des comparaisons (renommez-le en /usr/share/magic.orig).
$ file file.c file /dev/hda file.c: C program text file: ELF 32-bit LSB executable, Intel 80386, version 1, dynamically linked, not stripped /dev/hda: block special $ file -s /dev/hda{,1,2,3,4,5,6,7,8,9,10} /dev/hda: x86 boot sector /dev/hda1: Linux/i386 ext2 filesystem /dev/hda2: x86 boot sector /dev/hda3: x86 boot sector, extended partition table /dev/hda4: Linux/i386 ext2 filesystem /dev/hda5: Linux/i386 swap file /dev/hda6: Linux/i386 swap file /dev/hda7: Linux/i386 swap file /dev/hda8: Linux/i386 swap file /dev/hda9: empty /dev/hda10: empty $ file -i file.c file /dev/hda file.c: text/x-c file: application/x-executable, dynamically linked (uses shared libs), not stripped /dev/hda: application/x-not-regular-file
Ce programme, basé sur la version System V, a été écrit par Ian Darwin <ian@darwinsys.com> sans jeter le moindre coup d'oeil à un code tiers.
John Gilmore révisa largement le code, l'améliorant par rapport à la première version. Geoff Collyer trouva plusieurs inadéquations, et fournit quelques entrées du fichier magique. Contributions de l'opérateur « & » par Rob McMahon, cudcv@warwick.ac.uk, 1989.
Guy Harris, guy@netapp.com, a effectué de nombreuses modifications depuis 1993.
Développement et maintenance principaux depuis 1990 par Christos Zoulas (christos@astron.com).
Modifié par Chris Lowth, chris@lowth.com, en 2000 : support de l'option « -i » pour produire des chaînes de types mime, et utilisation d'un fichier magique et d'une logique interne alternatifs.
Modifié par Eric Fischer (enf@pobox.com), en juillet 2000, pour identifier les codes de caractères et essayer d'identifier le langage des fichiers non ASCII.
La liste des contributeurs au répertoire « Magdir » (source pour le fichier /etc/magic) est trop longue pour être incluse ici. Vous vous reconnaîtrez ; merci.
Les fichiers tar.h et is_tar.c ont été écrits par John Gilmore à partir de son programme tar du domaine public, et ne sont pas couverts par la licence précitée.
File utilise plusieurs algorithmes qui favorisent la vitesse par rapport à la précision, et il peut ainsi se tromper sur le contenu des fichiers texte.
Le support des fichiers texte (principalement pour les langages de programmation) est simpliste, inefficace, et requiert une recompilation pour une mise à jour.
Il devrait y avoir une clause « else » pour suivre une série de lignes de prolongement.
Le fichier magique et les mots-clés devraient supporter les expressions rationnelles. Son utilisation du TAB ASCII comme un délimiteur de champ est horrible et rend difficile l'édition des fichiers, mais est acté.
Il serait souhaitable d'autoriser les lettres majuscules dans les mots-clés pour différencier, par exemple, les commandes troff(1) des macros des pages de manuel. La prise en charge des expressions rationnelles devrait faciliter cela.
Le programme ne reconnaît pas FORTRAN. Il devrait être capable de le faire en recherchant quelques mots-clés qui apparaissent indentés par rapport au début de la ligne. La prise en charge des expressions rationnelles devrait faciliter cela.
La liste de mots-clés de ascmagic appartient probablement au fichier Magique. Ceci pourrait être fait en utilisant un mot-clé comme « * » pour la valeur de décalage.
Une autre optimisation pourrait être de réordonner le fichier magique afin que l'on puisse effectuer les tests pour le premier octet, le premier mot, etc., une fois qu'on l'a extrait. Prévenir des conflits dans les entrées du fichier magique. Éventuellement créer une règle pour que les entrées soient triées sur base du décalage par rapport au début du fichier plutôt que sur la position à l'intérieur du fichier magique.
Le programme devrait fournir un moyen d'estimer le degré de fiabilité d'une supposition. Nous en arrivons à supprimer des suppositions (p.ex. « From : » comme cinq premiers caractères du fichier) car elles ne sont pas aussi pas aussi bonnes que d'autres (p.ex. « Newsgroups : » vs « Return-Path : »). Néanmoins, si les autres ne fonctionnent pas, il devrait être possible d'utiliser la première supposition.
Ce programme est plus lent que les commandes file de certains vendeurs. La récente prise en charge des codes de caractères multiples augmente encore cet écart.
Cette page de manuel, en particulier cette section, est trop longue.