myGully.com - content-select.com - Dateien extrahieren

Hey,

content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?

Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:

Code:

.

.

.

div id="legacyWarning" title="Hinweis" style="display: none;">

        <div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>

        <div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>

        <br/>

        <a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>

</div>

<div id="printList" title="Drucken" style="display: none;">

        <ul>

                                        <li>

                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "

                                  data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"

                                  data-chapter-id="4800587"

                                  data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"

                                  data-chapter-title="Buchtitel"

                                  onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');

                                          piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');

                                          piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"

                                >

                                        Buchtitel                                </a>

                        </li>

                                                <li>

                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "

                                  data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"

                                  data-chapter-id="4800588"

                                  data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"

                                  data-chapter-title="Impressum"

                                  onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');

                                          piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');

                                          piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"

                                >

                                        Impressum                                </a>.

.

.

Hinter dem Link, der z.B. in

Code:

<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "

versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.

Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?

Gruß,

Robert