Neues Google-Patent: Segmentierung von Artikeln aus Zeitungen
Februar 21, 2010 von admin
Google hat im September 2008 sein Digitalisierungsprojekt um das Scannen ganzer Zeitungen erweitert – das Unterprojekt nennt sich ‘Google Newspaper Archives’. Man begann damit die Archive großer, amerikanischer Zeitungs- und Zeitschriftenverlage zu scannen; darunter die New York Times, die Washington Post und das Time Magazine.
Die Scanner-Technologie beherrscht Google durch sein Google Books Library Project perfekt. Nun sind Zeitungen und Zeitschriften aber keine Bücher. Zeitungsseiten sind viel kleinteiliger aufgebaut als Bücher. Nutzer, die nach bestimmten Inhalten suchen, möchte nicht eine gesamte Seite präsentiert bekommen, wo der Artikel zu finden ist, sondern idealerweise nur den infrage kommenden Artikel mit dem gesuchten Inhalt.

Nun hat Google einen Patentantrag unter der Nummer 20100040287 gestellt. Der Antrag trägt den Titel:’ Segmenting Printed Media Pages Into Articles’. Darin wird eine Methode beschrieben, wie man in eingescannten Zeitungsseiten einzelne Artikel erkennen und isolieren kann.
Google kombiniert dabei OCR-Technologie (Texterkennung) mit einem neuen Ansatz die Strukturen und Grenzen von Artikel zu erkennen und von Werbung oder Bildmotiven zu unterscheiden.
Zusätzlich ist die Technologie in der Lage, einen Artikel, der über zwei Seiten verläuft zu einem Artikel zusammen zu fassen.
Das Patent wurde zwar jetzt erst beantragt, wurde aber bereits im August 2008 – also kurz vor der Bekanntgabe des Scanning-Projekt – ausgefüllt. Daher ist davon auszugehen, dass sich die Technologie bereits im Einsatz befindet. - Ralf Kaumanns
Linktipp: www.nytimes.com/2008/09/09/technology/09google.html?_r=1&nl=tech&emc=techa1
Quelle: www.google-oekonomie.de mit freundlicher Genehmigung
Linktipp: Will Google das Internet und die Welt beherrschen?























Kommentare
Gerne können Sie hier Ihren Kommentar hinterlassen...
und wenn Sie zusätzlich ein kleines Bild von sich zeigen möchten, nutzen Sie dafür einen Gravatar.
HINWEIS: Jeder neue Kommentar wird vor der Freigabe durch einen Moderator geprüft! Bitte geben Sie Ihren Namen und eine gültige Mailadresse an.