Sie sind nicht angemeldet.

1

21.03.2016, 13:16

OCR für Text, Formel und Bild

Tag Experten.

Kann jemand empfehlen OCR Software für Linux oder Windoze, die erkennt nicht nur Text, sondern auch Formeln und Bilder ?
Mit

Quellcode

1
tesseract bilddatei.tif textdatei -l deu
ich kann erfolgreich umwandeln normale Textzeilen ,
aber sobald tesseract stolpert über Formeln, bekomme ich nur Haufen Müll.
Z.b. Formel E=mc2 wird erkannt als E-mc .
Im Bruchrechnungen, Zähler und Nenner werden überhaupt nicht als solche erkannt.
Bider auch sind verloren.

Gibt es OCR Software, die erkennt auch Formeln, und kann die exportieren als Libreoffice-Formel z B zu ODT, DOCX... , und Bilder als Bildobjekte ?
Oder nicht als Text erkannte Objekte, wie Formeln und Bilder, zusammen mit umgewandeltem Text , exportieren nach ODT oder DOCX ?

Im voraus besten dank an alle.

Dieser Beitrag wurde bereits 1 mal editiert, zuletzt von »Kurmis« (21.03.2016, 13:32)


2

22.03.2016, 17:51

Es ist ja TEXT-Erkennung, keine Bilder oder Formattierung. Output ist also ASCII. Wie sollen Bilder und Formeln als ASCII aussehen? ?(

Formeln sind ja speziell formattierter Text. Ob tesseract das kann weiss ich nicht. Es gibt aber alternativen. Suche mal nach "open source ocr math expressions". sesshat oder JMathNotes sehen vielversprechend aus. Zielformat ist dann Latex.

Was Bilder angeht, suche mal nach "Searchable PDF". Da wird der erkannte ASCII-Text in das PDF zusammen mit dem Original-Bild verschmolzen so dass das PDF wie Original aussieht, die Texte jedoch kopierbar sind.
Auch wenn Open-Source kostenlos ist, ist sie nicht umsonst. Dein Preis ist Dein Engagement und Mitarbeit an OS-Projekten.
Wenn Du keinen Preis bezahlen willst, bist Du die Ware. Und das ist nicht Open Source, geschweigedenn frei.