Einzelnen Beitrag anzeigen
Ungelesen 23.10.15, 21:28   #1
acs384
Newbie
 
Registriert seit: Sep 2009
Beiträge: 66
Bedankt: 29
acs384 ist noch neu hier! | 0 Respekt Punkte
Standard Wie den Text einer PDF sauber extrahieren (weniger Absatzmarken)?

Hi,

ich habe viel Software getestet und den Text mit Acrobat oder was auch immer zu extrahieren ist sehr einfach. Ziel ist es für einen blinden Freund mal einige Bücher sauber mit der Software Balabolka in Audios zu wandeln.

z.B. eine Epub kann man sofort umwandeln.

Eine PDF jedoch hat zu viele unnötige Absätze welche dann von einen Leseprogramm nicht korrekt ausgesprochen werden, da es dann zu oft eine Lesepause gibt.

Habt ihr eine Idee ob es Software gibt welche sich auf extrahiereten Text von PDFs spezialisiert hat. Und z.B. o.g. Problem löschen kann indem der Text erst automatisch editiert wird.

Oft sind auch alle oder fast alle Buchstaben von Wörter mit einer Leetaste getrennt. Vielleicht gibt es ja auch dafür eine Lösung ohne dass man jedes Wort selber lesen muss um es zu korrigieren.

Außerdem wäre es nicht schlecht wenn die Seitenzahlen entfernt werden. aber das ist weniger wichtig.
acs384 ist offline   Mit Zitat antworten