Texte und Daten in den Rechner holen (OCR)

von | 17.08.2007 | Tipps

Nie wieder Texte abtippen: Wer ein OCR-Programm benutzt, kann Vorlagen in den Rechner holen und in jedem beliebigen Datenformat speichern. So lassen sich auch PDFs verarbeiten.

Vor ein paar Jahren wurde uns das papierlose Büro versprochen. Ein verlockender Gedanke, doch so ganz scheint das nicht geklappt zu haben: Es wird mehr gedruckt denn je. In Zeiten von Intranet, World Wide Web und E-Mail sind viele allerdings gar nicht mehr auf Papierdokumente vorbereitet. Papier stört nicht nur den Ablauf, sondern lässt sich vor allem ganz schlecht digital archivieren.

OCR-Programme

Eine gute Lösung für das Problem sind OCR-Programme: Dank „Optical Character Recognition“ (optischer Zeichenerkennung) werden aus Papierdokumenten im Handumdrehen digitale Dokumente, die ganz normal im Rechner verarbeiten werden können. Zwar ist nahezu jeder handelsübliche Scanner mit einem OCR-Programm ausgestattet, allerdings in der Regel mit einer abgespeckten Basisversion. Die Vollversionen der Programme können viel mehr. Sie wandeln eingescante Dokumente ins gewünschte Dateiformat, ob Word, Excel, Powerpoint, HTML oder PDF.

Mit Omnipage 15 zum Beispiel, das es im Fachhandel bereits ab 70 Euro gibt, lassen sich Dokumente auf Papier innerhalb von Sekunden in PDF-Dokumente umwandeln und so bequem archivieren. Das ursprüngliche Layout bleibt vollständig erhalten. Es gibt aber einen wesentlichen Vorteil: PDF-Dokumente lassen sich platzsparend auf dem PC speichern und vor allem bequem durchsuchen, etwa mit einer Desktop-Suchmaschine. Omnipage legt zu diesem Zweck automatisch Index und Stichwörter an.

Hohe Genauigkeit, kaum Fehler

Die Genauigkeit moderner OCR-Verfahren ist heute sehr hoch, selbst bei qualitativ schlechten Vorlagen oder wenn beim Scannen irgendetwas schief geht. Moderne Technologien wie die „Scanner Enhancement Technology“ (SET) sorgen für eine automatische Fehlerkorrektur. Mit Hilfe von Wörterbüchern findet die Software erstaunlich häufig die passenden Wörter. Der Benutzer muss heute nur noch selten eingreifen, um einen Text zu korrigieren. Selbst wenn ein Text mehrsprachig ist, klappt die Umsetzung in der Regel fehlerfrei: Omnipage erkennt über 100 verschiedene Sprachen.

Selbst komplexe Layouts werden von Omnipage in der Regel korrekt erkannt und umgesetzt, zum Beispiel mehrspaltige Texte. Grafische Elemente wie Logos, Fotos oder Illustrationen separiert das Programm von alleine. Auf Wunsch entstehen auf diese Weise sogar Word-Dokumente, die man ohne Einschränkungen weiter bearbeiten kann. Per Mausklick lässt sich in der Software einstellen, welche Stellen im Original-Layout relevante Inhalte enthalten und was „übersehen“ werden soll, ideal, um zum Beispiel auf mehrseitigen Scans Bereiche wie Titelzeilen oder Paginierung auszusparen.

PDF-Dokumente konvertieren

OCR-Programme wie Omnipage erweisen sich aber nicht nur beim Einlesen und Verarbeiten von Papierdokumenten als praktisch. Auf Wunsch kann Omnipage auch den umgekehrten Weg gehen und PDF-Dokumente importieren. So wird im Handumdrehen aus einem PDF eine Word-Datei, die sich am Rechner verarbeiten lässt, sogar im selben Layout wie vorher.

Das Programm bietet außerdem eine Sprachausgabe, vom Hersteller „RealSpeak“ getauft: Das Programm kann eingescannte Texte vorlesen oder auf Wunsch als WAV-Dateien speichern. Das lässt sich zwar ganz gut verstehen, allerdings nur, solange keine Abkürzungen oder Fremdwörter im Text vorkommen. Aus „PCs“ macht die Sprechstimme Vera „Pe-ce-es“, den Begriff „WLAN“ kann man überhaupt nicht verstehen. Ein Problem, das die meisten elektronischen Sprachausgabesysteme habe.

Sprachausgabe noch eher schwach

Für Menschen mit Sehschwäche zweifellos ein guter Service. Doch den Ratschlag des Herstellers, man solle doch lange Texte „auf CD brennen und mitnehmen“, sollte man besser nicht beherzigen. Denn ein besonderes Hörerlebnis wird wirklich nicht geboten. Spätestens nach ein paar Sätzen ist die Geduld erschöpft, da möchte man einfach nicht mehr zuhören. Gut gemeint ist eben nicht gleich gut gemacht.

Omnipage bei softwareload kaufen

Schieb App