kanotix.com :: Thema anzeigen - HTML-Links via Perl auslesen?

kanotix.com

Entwicklung - HTML-Links via Perl auslesen?

Dannyboy - 08.11.2006, 13:05 Uhr
Titel: HTML-Links via Perl auslesen?

Hallo Linux-Freunde,
ein Freund von mir sucht eine Möglichkeit HTML-Links mit Perl auszulesen. Dazu greift er via Perl auf den Online-Sourcecode zu, speichert ihn in einer String-Variable und nun benötigt er noch die Möglichkeit sich die Inhalte von allen

Code:

<a href> DAS BRAUCHEN WIR </a href>

auszugeben. Im Prinzip möchte er einfach alle auf einer HTML-Seite verfügbaren Downloads und Links auflisten und das Ganze _muss_ mit regulären Ausdrücken passieren

Ich würd' ihm gern helfen, aber habe offen gestanden bisher keine Ahnung von Perl. Wäre super, wenn jemand eine Idee hätte.

Greetz
DANNYBOY

Geier0815 - 08.11.2006, 13:38 Uhr
Titel: RE: HTML-Links via Perl auslesen?

Er soll nicht in einen String speichern, sondern in ein Array (die Dinger mit dem @ am Anfang). Dann jagt er eine Suche drüber und speichert für jede Zeile in der der entsprechende Tag vorkommt eine neue Variable.

Hack-o-Master - 10.11.2006, 16:02 Uhr
Titel:

Ein apt-cache search html|grep perl|more fördert u.a. diese Perl-Module zu Tage (neben vielen anderen die sich mit HTML beschäftigen):

libhtml-linkextractor-perl

libhtml-parser-perl

was wohl für die Aufgabenstellung Arbeit abnehmen könnte.

Bei installierten perl-doc Paket kann dann die Doku dazu per
perldoc HTML::LinkExtractor & perldoc HTML::LinkExtor eingesehen werden.
(siehe auch /usr/share/doc/libhtml-linkextractor-perl/README)

mfg. Hack-o-Master

gummibaerchen - 10.11.2006, 16:15 Uhr
Titel:

Mein bester Freund hatte so komplizierte Hausaufgaben.

Also alpha=40° und jetzt brauche ich a, muss aber mit dem Satz des Pythagoras gemacht werden Smilie

Ja ne, schon klar.

p500xl - 10.11.2006, 18:04 Uhr
Titel: Re: HTML-Links via Perl auslesen?

Dannyboy hat folgendes geschrieben::

Im Prinzip möchte er einfach alle auf einer HTML-Seite verfügbaren Downloads und Links auflisten und das Ganze _muss_ mit regulären Ausdrücken passieren

dein freund muss dafür nicht perl können Sehr glücklich

dieses hier für die console

Code:

lynx -dump http://kanotix.com/index.html | sed '1,/^References/d' | grep http | awk '{print $NF}'