Hey,
content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?
Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:
Code:
.
.
.
div id="legacyWarning" title="Hinweis" style="display: none;">
<div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>
<div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>
<br/>
<a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>
</div>
<div id="printList" title="Drucken" style="display: none;">
<ul>
<li>
<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "
data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
data-chapter-id="4800587"
data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
data-chapter-title="Buchtitel"
onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"
>
Buchtitel </a>
</li>
<li>
<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
data-chapter-id="4800588"
data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
data-chapter-title="Impressum"
onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"
>
Impressum </a>.
.
.
Hinter dem Link, der z.B. in
Code:
<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.
Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?
Gruß,
Robert