Moin,
Google liest PDF aus und verwertet die Informationen für den Suchindex, die Bildersuche, etc.
ja, das ist selbstverständlich möglich, ein handelsüblicher PDF-Viewer tut ja auch nichts anderes. Aber der Aufwand ist relativ hoch, das macht man nicht mal eben mit 10 Zeilen PHP oder so.
Google "erkennt" ja auch Bilder, d.h. analysiert den Bildinhalt als solchen und erzeugt dann eine Beschreibung wie etwa "Zwei Menschen stehen vor einem Haus".
Unsere kleine Vereinszeitung stand jahrelang auch immer als PDF im Internet und wurde bei Google repräsentativ gelistet auf passende Suchbegriffe. Das werden die kaum manuell gemacht haben.
Nein. Und solange das PDF wirklich direkt aus Text erzeugt wird, ist das IMO immer möglich. Nur bei eingescannten Dokumenten steht man etwas im Regen; da braucht's noch OCR, um wieder etwas damit anfangen zu können.
Aber auch das ist heute nichts ungewöhnliches mehr. Nimm als Beispiel Microsoft OneNote: Da kannst du Grafiken einfügen, und OneNote macht einen OCR-Durchlauf, bevor du es überhaupt merkst, so dass das Bild mit Suchworten gefunden werden kann, die im Bild vorkommen. Oder Microsoft Exchange: Wenn ich am Arbeitsplatz mal einen Anruf verpasst habe, bekomme ich eine e-Mail mit einem mp3-Anhang und kann mir anhören, was der Anrufer auf die Mailbox gesprochen hat - im Text der Mailnachricht bekomme ich aber auch gleich ein Transscript des Anrufs!
PDF ist ein Containerformat. Dieses enthält also weitere Formate.
Ist das so? Bitte mehr Details dazu.
Es gibt auch
PDF2HTML
undPDF2WORD
usw. als nützliche Programme.
Ja. Deren Erfolg steht und fällt aber mit der "gutmütigen" Erzeugung des PDF-Dokuments.
Live long and pros healthy,
Martin
Home is where my beer is.