Skip to content


Bête et méchant

Un petit uniligne faux dans la plupart des cas pour extraire les urls des cibles des liens présents dans une page hml.

perl -ne "/2007-2008/ && /href=\"(.*pdf)\"/ && print \"http://www.google.fr/\".\$1, \"\n\""

Ici on ne prend que les urls qui contiennent 2007-2008, qui se terminent par pdf et on rajoute une une url de base avant si on doit traiter des liens relatifs.

Je répète, c’est crade, c’est faux, et c’est laid mais ça marchouille à peu près.

N’empêche, c’est rapide à faire.

Posted in Eau chaude, Perl.

0 Responses

Stay in touch with the conversation, subscribe to the RSS feed for comments on this post.

Some HTML is OK

(required)

(required, but never shared)

or, reply to this post via trackback.