myGully.com Boerse.SH - BOERSE.AM - BOERSE.IO - BOERSE.IM
Ungelesen 02.04.21, 22:22   #1
Theropod
Anfänger
 
Registriert seit: Mar 2021
Beiträge: 3
Bedankt: 0
Theropod ist noch neu hier! | 3 Respekt Punkte
Standard Hilfe beim Download von ePaper benötigt

Hallo,

an dieser Stelle kann man einen alten Metal Hammer durchblättern:
h**ps://www.musikexpress.de/wp-content/uploads/zeitung/metalhammer/ysc0LSFMZvH28/index.html#/html5///page/1

Ich versuche schon seit einiger Zeit, einen praktikablen Weg zu finden, Magazine dieser Art bequem abspeichern zu können.

Das Problem ist, dass die Heftseiten keine fortlaufenden Dateinamen haben, sondern zufällig generierte Namen wie diesen:
h**ps://www.musikexpress.de/wp-content/uploads/zeitung/metalhammer/ysc0LSFMZvH28/mag_data/mag_content/823368415cec53d673a7dfe2694f070d.jpg

Andernfalls könnte man ja einfach einen Batch-Download ablaufen lassen. Ich kann zwar alle Dateinamen aus der Browser-Konsole oder dem Web-Inspektor auslesen, allerdings nur, wenn ich einmal das komplette Heft durchblätter, da die Seiten einzeln nachgeladen werden. Auf diese Weise alles manuell rauskopieren wäre schon für ein einziges Heft äußerst mühsam. Für mehrere Hefte hingegen völlig unpraktikabel.

Wenn ich das richtig gesehen habe, handelt es sich hier um eine Anwendung von Smarticle. Der Redakteur lädt irgendwo ein PDF auf den Server, aus dem die Anwendung dann automatisch das ePaper generiert. Bei anderen Systemen konnte ich schon mal den PDF-Zugriff über die Browser-Konsole rausfinden und direkt das PDF abspeichern. Das funktioniert hier leider nicht.

Wäre sehr schön, wenn sich mal jemand mit mehr Ahnung als ich, das ansehen könnte. Vielleicht gibts da noch andere Möglichkeiten. Mit meinem IT-Wissen bin ich leider am Ende.

Das Ganze wäre sehr lukrativ, da momentan die gesamten (!) Archive von Metal Hammer, Rolling Stone (DE) und Musikexpress frei zugänglich im Netz stehen. Es ist zu befürchten, dass diese Lücke nicht ewig offen bleiben wird.
Theropod ist offline   Mit Zitat antworten
Ungelesen 10.04.21, 23:24   #2
nettermann64
Ist öfter hier
 
Registriert seit: Jan 2010
Beiträge: 226
Bedankt: 96
nettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punktenettermann64 putzt sich die Zähne mit Knoblauch. | 1323 Respekt Punkte
Standard

zwei ideen
1.picgrab : massendownloader für bilder; eventuell kann das Programm schon die bilder umbenennen oder so ablegen wie du möchtest
2. hiefür würde ich "super-commander" nehmen, aber auch jeder andere RENAMER sollte funktionieren. runterladen in einen Ordner und dann nach zeitstempel sortieren und dann geht es mit mehrfach umbenennen.
nettermann64 ist offline   Mit Zitat antworten
Die folgenden 2 Mitglieder haben sich bei nettermann64 bedankt:
karfingo (29.04.21), Theropod (29.04.21)
Ungelesen 29.04.21, 22:29   #3
Theropod
Anfänger
 
Registriert seit: Mar 2021
Beiträge: 3
Bedankt: 0
Theropod ist noch neu hier! | 3 Respekt Punkte
Standard

PicGrab funktioniert leider nicht. Es werden von dem Tool gar keine Bilder gefunden.
Falls noch jemand irgendwelche Vorschläge hätte, gerne her damit.
Theropod ist offline   Mit Zitat antworten
Ungelesen 01.05.21, 07:37   #4
Klappstulle_mit_Käse
Anfänger
 
Registriert seit: Apr 2021
Beiträge: 35
Bedankt: 18
Klappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt PunkteKlappstulle_mit_Käse leckt gerne myGully Deckel in der Kanalisation! | 1573817 Respekt Punkte
Standard

In dem von dir genannten Beispiel liegen die Heftinformationen in dieser Json-Datei:
h**ps://www.musikexpress.de/wp-content/uploads/zeitung/metalhammer/ysc0LSFMZvH28/mag_data/magazine_content.json

Man müsste einen kleinen Parser programmieren, der die File_item_IDs dort ausliest und dann automatisch speichert:

Beispiel-Link zu einer Seite. File_Item_ID = Teil des Dateinamens:
h**ps://www.musikexpress.de/wp-content/uploads/zeitung/metalhammer/ysc0LSFMZvH28/mag_data/mag_content/a0d71f5759eceb43171ef92943c4380d_1x1.jpg

Programmiertechnisch ist das gut umsetzbar.
Klappstulle_mit_Käse ist offline   Mit Zitat antworten
Die folgenden 2 Mitglieder haben sich bei Klappstulle_mit_Käse bedankt:
Elke_freshmind (02.05.21), Theropod (16.05.21)
Antwort

Themen-Optionen
Ansicht

Forumregeln
Du kannst keine neue Themen eröffnen
Du kannst keine Antworten verfassen
Du kannst keine Anhänge posten
Du kannst nicht deine Beiträge editieren

BB-Code ist An.
Smileys sind An.
[IMG] Code ist An.
HTML-Code ist Aus.

Gehe zu


Alle Zeitangaben in WEZ +1. Es ist jetzt 22:53 Uhr.


Sitemap

().