Zitat:
Zitat von Victor332
@arcchancellor: Toller Work-Flow! - Eigentlich könnte man die TIFF-Dateien in Finereader laden, aber dann ist das Risiko, das Seiten vertauscht sind vorhanden. Auch kannst du ein PDF vorher (z.B im XChange-Editor) so beschneiden, dass die Seitenzahlen bereits weg sind, das verhindert, dass diese evtl. vereinzelt im Text stehen.
|
Da habe ich mich wohl etwas unklar ausgedrückt: Die ocr-PDF nutze ich
nur zum Vergleich bei unklaren Fehlern zum schnellen Auffinden im Buch. In den FineReader kommen auf alle Fälle die von ScanTailor ausgegebenen tifs. Und das Ergebnis des FineReaders wandert dann weiter über LibreOffice nach Sigil.
Was das Entfernen von Seitenzahlen angeht, bin ich anfangs im Scan Tailor nach der ersten "Ausgabe" und dem Herauskopieren des out-Ordners zur Weiterverarbeitung als PDF immer einen Schritt zurück zum "Rand auswählen" gegangen, habe einfach bei jeder Seite kurz den unteren Rand etwas nach oben über die Seitenzahl geschoben und hab dann eine zweite "Ausgabe" durchlaufen lassen, die ich als Grundlage für den FineReader genommen habe. So hatte ich das mal von bb gelernt.
Mittlerweile erspare ich mir diese zweite Ausgabe und die damit verbundene Arbeit und Zeit komplett, indem ich nur eine Ausgabe mit Seitenzahlen erstelle und diese .tifs dann auch im FineReader nutze. Dort kann man nämlich ganz einfach die Seitenzahlen entfernen, indem man das Feature "Bereichsvorlage" nutzt.
Das läuft im Prinzip wie einer der Zwischenschritte im ScanTailor:
- man sucht sich in den frisch in den FR geladenen Seiten eine mit maximalem Text aus
- man zieht einen Rahmen um den Text so das die Seitenzahl außen vor bleibt
- man wählt in der Menüleiste Bereich/Bereichsvorlage speichern aus und speichert den gerade umrandeten Text mit irgendeiner Bezeichnung als Bereichsvorlage ab
- unmittelbar danach wählt man im Punkt darunter "Bereichsvorlage laden" und im sich öffnenden Fenster die eben erstellte Bereichsvorlage aus und markiert (üblicherweise) den Punkt "alle Seiten" und bestätigt mit "öffnen"
- über "Erkennen" lässt man alle Seiten neu einlesen
Als Ergebnis hat man bei sämtlichen Seiten die Seitenzahlen automatisch ausgeschlossen und braucht nur noch, wenn man im nächsten Schritt jede Seite einzeln durchgeht, ggf. auf einzelnen Seiten mal den Textrahmen an einzelnen Stellen etwas weiter aufziehen oder wenn es sich um Bilder handelt, den Textrahmen entfernen und dafür mit der Bildauswahl die Bilder auswählen.
Vertauschte Seiten hatte ich noch nie. Unmittelbar nach der Ausgabe des ScanTailors benenne ich mittels "Mehrfachumbenennung" die ausgegebenen Dateien in 001.tif, 002.tif usw. um.
Was mir allerdings schon ein zwei mal passiert ist, war eine fehlende Seite, die beim Scannen überblättert wurde. Aber diesem Problem kann man schon bei der Verarbeitungsstufe ScanTailor mit der "Zauberzahl" beikommen.