Zitat:
Zitat von ProgMaster
@milchzweliest du auch die Beiträge hier?
Du hast ein falsches Grundverständniss was URLs angeht!
Es gibt eventuell gar keine Lösung oder unendlich viele URLs...
Nenn uns doch die URL und wir sehen weiter. Alles andere bringt NICHTS.
|
Da scheint hat ProgMaster recht zu haben.
Ein URL (ist übrigens eigentlich maskulin), ausgeschrieben
Uniform Resource Locator, macht nichts anderes, als eine bestimmte Resource zu identifizieren und zu lokalisieren. Das heißt
Code:
http://mygully.com/
ist ebenso ein URL wie
Code:
file:///Users/test/file.db
Das tolle daran ist aber, dass die spezifizierte Ressource gar nicht existieren muss.
Wie ProgMaster andeutete, gibt es unendlich viele URLs, ob sich dahinter wirklich Content befindet, kann man erstmal nicht sagen.
Daraus resultiert dann die Frage, wie du feststellen willst, ob die angeforderte Ressource überhaupt existent ist. Entweder der Server gibt dir 'nen Fehlercode (z.B. 404) oder du bekommst eine Error-Page. Die müsstest du erkennen (was bei generierten Pages nicht immer ganz einfach ist) und den URL dann eben zu
nicht existent packen.
Wenn du nicht gerade ein Directory-Listing findest, bleibt dir nur Brute-Force, das ist aufwändig, langsam und jeder gute Admin wird die Requests deiner IP einfach nach kurzer Zeit droppen, wenn du keinen vernünftigen User-Agent angibst (das sollte aber dein kleinstes Problem sein).
--
Die Spezifikation von URLs kannst du
hier lesen.