myGully.com Boerse.SH - BOERSE.AM - BOERSE.IO - BOERSE.IM Boerse.BZ .TO Nachfolger
Ungelesen 13.08.17, 11:25   #1
atsc
Anfänger
 
Registriert seit: Jul 2011
Beiträge: 29
Bedankt: 19
atsc ist noch neu hier! | 0 Respekt Punkte
Standard content-select.com - Dateien extrahieren

Hey,


content-select.com ist eine Platform, auf der Benutzer von Universitätsbibliotheken (üblicherweise Studierende) via VPN Bücher online lesen können. Ich kann auf Umwegen dort auch einzelne Kapitel als PDF-Datei runterladen, was ich aber ziemlich umständlich finde. Früher konnte ich mit einer Firefox-Erweiterung die Dateien systematisch extrahieren, was nun, nachdem die Seite verändert wurde nicht mehr zu gehen scheint - oder vielleicht doch?

Wenn ich in den Qurellcode schaue, sieht das dann ungefähr so aus:

Code:
.
.
.
div id="legacyWarning" title="Hinweis" style="display: none;">
        <div class="text_highlight text_justify">Sollten Sie Probleme bei der Darstellung dieses E-Books haben, versuchen Sie es mit dem Kompatibilitätsmodus.</div>
        <div class="text_small text_justify">Bitte beachten Sie: Nicht alle Funktionen dieses E-Book Viewers sind im Kompatibilitätsmodus vorhanden.</div>
        <br/>
        <a href="/media/lgcy_viewer/58c3c291-0ecc-441c-9c1d-6061b0dd2d03">Zum Kompatibilitätsmodus wechseln</a>
</div>
<div id="printList" title="Drucken" style="display: none;">
        <ul>
                                        <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800587 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800587"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Buchtitel"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Buchtitel | print', 'download');"
                                >
                                        Buchtitel                                </a>
                        </li>
                                                <li>
                                <a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
                                   data-id="58c3c291-0ecc-441c-9c1d-6061b0dd2d03"
                                   data-chapter-id="4800588"
                                   data-title="Sprachbildung als Aufgabe aller Fächer und Lernbereiche"
                                   data-chapter-title="Impressum"
                                   onClick="piwik1.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik2.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');
                                           piwik3.trackLink('http://content-select.com/9783830983668 | Impressum | print', 'download');"
                                >
                                        Impressum                                </a>.
.
.
Hinter dem Link, der z.B. in
Code:
<a href="/media/download/58c3c291-0ecc-441c-9c1d-6061b0dd2d03/4800588 "
versteckt ist, befindet sich dann eine PDF-Datei eines Kapitels.

Seht Ihr vielleicht eine Möglichkeit, die PDF-Dateien automatisiert zu extrahieren?



Gruß,

Robert
atsc ist offline   Mit Zitat antworten
Antwort

Themen-Optionen
Ansicht

Forumregeln
Du kannst keine neue Themen eröffnen
Du kannst keine Antworten verfassen
Du kannst keine Anhänge posten
Du kannst nicht deine Beiträge editieren

BB code is An
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.

Gehe zu


Alle Zeitangaben in WEZ +1. Es ist jetzt 14:35 Uhr.


Sitemap

().