content-select.com - Dateien extrahieren

atsc · 13.08.17, 10:25

Hey,

content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?

Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:

Code:

.
.
.
div id="legacyWarning" title="Hinweis" style="display: none;">
        <div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>
        <div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>
        <br/>
        <a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>
</div>
<div id="printList" title="Drucken" style="display: none;">
        <ul>
                                        <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800587"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Buchtitel"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"
                                >
                                        Buchtitel                                </a>
                        </li>
                                                <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800588"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Impressum"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"
                                >
                                        Impressum                                </a>.
.
.

Hinter dem Link, der z.B. in

Code:

<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "

versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.

Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?

Gruß,

Robert