myGully.com Boerse.SX
Zurück   myGully.com > Netzwelt > Netzwelt
Seite neu laden

content-select.com - Dateien extrahieren

Antwort
Themen-Optionen Ansicht
Ungelesen 13.08.17, 10:25   #1
atsc
Anfänger
 
Registriert seit: Jul 2011
Beiträge: 17
Bedankt: 2
atsc ist noch neu hier! | 0 Respekt Punkte
Standard content-select.com - Dateien extrahieren

Hey,


content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?

Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:

Code:
.
.
.
div id="legacyWarning" title="Hinweis" style="display: none;">
        <div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>
        <div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>
        <br/>
        <a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>
</div>
<div id="printList" title="Drucken" style="display: none;">
        <ul>
                                        <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800587"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Buchtitel"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"
                                >
                                        Buchtitel                                </a>
                        </li>
                                                <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800588"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Impressum"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"
                                >
                                        Impressum                                </a>.
.
.
Hinter dem Link, der z.B. in
Code:
<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.

Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?



Gruß,

Robert
atsc ist offline   Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Du kannst keine neue Themen eröffnen
Du kannst keine Antworten verfassen
Du kannst keine Anhänge posten
Du kannst nicht deine Beiträge editieren

BB-Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.

Gehe zu


Alle Zeitangaben in WEZ +1. Es ist jetzt 21:11 Uhr.


Sitemap

().