myGully.com

myGully.com (https://mygully.com/index.php)
-   Netzwelt (https://mygully.com/forumdisplay.php?f=96)
-   -   content-select.com - Dateien extrahieren (https://mygully.com/showthread.php?t=4873908)

atsc 13.08.17 10:25

content-select.com - Dateien extrahieren
 
Hey,


content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?

Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:

Code:

.
.
.
div id="legacyWarning" title="Hinweis" style="display: none;">
        <div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>
        <div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>
        <br/>
        <a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>
</div>
<div id="printList" title="Drucken" style="display: none;">
        <ul>
                                        <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "
                                  data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                  data-chapter-id="4800587"
                                  data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                  data-chapter-title="Buchtitel"
                                  onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                          piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                          piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"
                                >
                                        Buchtitel                                </a>
                        </li>
                                                <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
                                  data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                  data-chapter-id="4800588"
                                  data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                  data-chapter-title="Impressum"
                                  onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                          piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                          piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"
                                >
                                        Impressum                                </a>.
.
.

Hinter dem Link, der z.B. in
Code:

<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.

Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?



Gruß,

Robert


Alle Zeitangaben in WEZ +1. Es ist jetzt 08:00 Uhr.

Powered by vBulletin® (Deutsch)
Copyright ©2000 - 2024, Jelsoft Enterprises Ltd.