Text in PDF unleserlich/unscharf machen

ANZEIGE

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
ANZEIGE
Ich dachte, ich versuch mal mein Glück auch hier. In der Firma sind wir gerade auf der Suche nach einem Programm, das in einem PDF-Dokument enthaltenen Text, Bilder, Rahmen, etc. unkenntlich macht - quasi verschwommen wie bei einem Milchglas ("blurred"). Der Inhalt soll noch, sagen wir, erahnbar sein. Die besagte PDF soll quasi nur "anteasern" und wie bei einer Testversion für Software nur bestimmte Bereiche lesbar enthalten.

Wisst ihr, ob es dafür Lösungen gibt? Und zwar Serverseitig (Desktop bzw. Einzellösung scheidet aus, da es kontinuierlich gut 3000 .pdfs betrifft). Hat jemand von euch Erfahrung damit bzw. einen Tipp für eine andersweitige Umsetzung?
 

David_DE

Erfahrenes Mitglied
21.05.2013
1.759
616
Eine Software kann nicht wissen, welche Textpassagen und welche Illustrationen geschwärzt werden sollen.
Das wird man einer Software schon mitteilen müssen.

Oder soll generell der komplette Inhalt der PDF-Dateien ausnahmslos verschwommen sein?
 

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
Eine Software kann nicht wissen, welche Textpassagen und welche Illustrationen geschwärzt werden sollen.
Das wird man einer Software schon mitteilen müssen.

Oder soll generell der komplette Inhalt der PDF-Dateien ausnahmslos verschwommen sein?
Eigentlich wäre es gedacht, dass der erste Teil von Seite 1 frei ist und alle anderen Seiten (plus Rest der ersten Seite) verschwommen sind. Aber dies soll kein KO-Kriterium sein, es ist möglich das Dokument so anzupassen, dass alle Seiten verschwommen sind und wir einfach eine freie Seite davorhängen.

Wüsstest Du in diese Richtung was?
 

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
Ghostscript sollte sowas können. Die Umsetzung bzw. Programmierung dürfte aber halbwegs aufwändig sein...
Danke für den Tipp, die Verwendung von Ghostscript kam auch intern auf. Würde aber dazu führen, dass die Seiten vom bestehenden .pdf in Bilder umgewandelt, dann mit dem "Milchglas-Effekt" versehen und dann wieder in ein .pdf gedruckt werden müssten. Ressourcentechnisch scheinbar ein Alptraum.
 

elfi12

Erfahrenes Mitglied
18.08.2010
439
0
Wenn Du ein rein textbasiertes PDF hast, kommst du aber da nicht drum herum. Sonst könnte ich ja einfach den Textlayer kopieren ;)
 

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
Wenn Du ein rein textbasiertes PDF hast, kommst du aber da nicht drum herum. Sonst könnte ich ja einfach den Textlayer kopieren ;)
Mhh, okay, irgendwie hatte ich die Befürchtung, dass es so kommt ;) Mal schauen, ob es sich dann lohnt, sind ja gut 3000 pdfs mit jeweils mindestens 15 Seiten (können aber auch gut mal 50 Seiten werden).

Merci für euren Input! (y)
 

elfi12

Erfahrenes Mitglied
18.08.2010
439
0
Das sollte doch aber in 1-2 Tagen erledigt sein. Einmal programmieren und dann ist die Sache erledigt.
 

reicheto

Erfahrenes Mitglied
01.03.2016
956
56
Südwest ~(BSL)
Adobe Acrobat kann das beispielsweise. Das schwärzt allerdings den Text.

Gibt auch eine Bibliothek im .Net Umfeld die das kann. Falls es interessant für dich ist suche ich gerne den Nsmen raus.
 
  • Like
Reaktionen: Frequent_Flyer1

CKR

Erfahrenes Mitglied
18.05.2015
1.851
-9
MUC
Danke für den Tipp, die Verwendung von Ghostscript kam auch intern auf. Würde aber dazu führen, dass die Seiten vom bestehenden .pdf in Bilder umgewandelt, dann mit dem "Milchglas-Effekt" versehen und dann wieder in ein .pdf gedruckt werden müssten. Ressourcentechnisch scheinbar ein Alptraum.

Meiner Meinung nach aber der einzige gangbare Weg.

Anders gesagt; wenn Du Text verschommen darstellen willst, ist es kein Text mehr. Das Einzige, was halbwegs eine Alternative wäre, ist ein Zeichensatz, der verschwommen wirkt. Was aber ähnlich sicher ist, wie einen schwarzen Text in Word schwarz zu hinterlegen. ;)

Letzlich wollt Ihr doch nur das Layout und einen Teil der ersten Seite erhalten. Inwiefern ist es notwendig, das immer wieder zu machen? Wird das Dokument jedesmal dynamisch erstellt?

Vielleicht könnte man es anders machen? Nicht zu erhaltende Texte durcheinanderwürfeln. Wortweise oder buchstabenweise?

Gmäeß eneir Sutide eneir elgnihcesn Uvinisterät ist es nchit witihcg, in wlecehr Rneflogheie die Bstachuebn in eneim Wrot snid, das ezniige was wcthiig ist, ist, dass der estre und der leztte Bstabchue an der ritihcegn Pstoiion snid. Der Rset knan ein ttoaelr Bsinöldn sien, tedztorm knan man ihn onhe Pemoblre lseen. Das ist so, wiel wir nciht jeedn Bstachuebn enzelin leesn, snderon das Wrot als gseatems.
 

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
[...] Gibt auch eine Bibliothek im .Net Umfeld die das kann. Falls es interessant für dich ist suche ich gerne den Nsmen raus.
Gerne, wäre super!

Das sollte doch aber in 1-2 Tagen erledigt sein. Einmal programmieren und dann ist die Sache erledigt.
Stimmt gut mit der ersten groben Schätzung zusammen :D Wunsch wäre es bei uns mit entsprechender Prio, aber da wir gerade knapp an Kapazität sind auf Grund von anderen Projekten (suchen daher gerade auch jemand mit Python-Kenntnissen in Teil- und/oder Vollzeit; kann auch remote office sein) wird es wohl Juni werden bis zur Umsetzung.
 

Frequent_Flyer1

Erfahrenes Mitglied
10.03.2009
738
8
Vbg. (Austria)
[...] Anders gesagt; wenn Du Text verschommen darstellen willst, ist es kein Text mehr. Das Einzige, was halbwegs eine Alternative wäre, ist ein Zeichensatz, der verschwommen wirkt. Was aber ähnlich sicher ist, wie einen schwarzen Text in Word schwarz zu hinterlegen. ;)
LOL, das war jetzt ein gutes Beispiel :) die IT meinte so etwas ähnliches :p Bei den Graphiken hilft dies vor allem auch nicht weiter.

[...]Letzlich wollt Ihr doch nur das Layout und einen Teil der ersten Seite erhalten. Inwiefern ist es notwendig, das immer wieder zu machen? Wird das Dokument jedesmal dynamisch erstellt?
Wäre relativ dynamisch; da sich Input-Faktoren ändern wird das Dokument sicherlich 1x im Monat neu erzeugt.

Die Grundstruktur ist so, dass aus verschiedenen (internen und externen) Datenquellen dynamisch das "Produkt" gerechnet wird; der Output wird dann sowohl in Webform angezeigt als auch in .pdf-Form gegosen. Vielleicht müssen wir mal nachdenken und vorher ansetzen, d.h. schon bei der Erstellung des pdf-Dokuments dies berücksichtigen (wenn es überhaupt Sinn macht; ist wie gesagt nicht mein Spezielgebiet :censored:).
 
  • Like
Reaktionen: CKR

Brainpool

Erfahrenes Mitglied
15.03.2014
2.801
122
Vielleicht einfacher zu realisieren...?
Einfach die Leseprobe als "A" erstellen
und das ganze Schriftstück als "B" erstellen.
Wenn jemand nach dem Lesen von "A" Lust auf "B" hat, bekommt er halt "B"
 

Siwusa

Erfahrenes Mitglied
24.11.2010
4.884
-22
Vielleicht einfacher zu realisieren...?
Einfach die Leseprobe als "A" erstellen
und das ganze Schriftstück als "B" erstellen.
Wenn jemand nach dem Lesen von "A" Lust auf "B" hat, bekommt er halt "B"

Das wäre jetzt auch meine Idee gewesen. An dem Punkt ansetzen, an dem das Dokument erstellt wird und einen Klon erstellen, welcher zensiert wird. Die Dokumente werden dann als bpsw.: blurryversion_file1.pdf und fullversion_file1.pdf oder so abgelegt...
 
  • Like
Reaktionen: Brainpool

CKR

Erfahrenes Mitglied
18.05.2015
1.851
-9
MUC
LOL, das war jetzt ein gutes Beispiel :) die IT meinte so etwas ähnliches :p Bei den Graphiken hilft dies vor allem auch nicht weiter.

Wäre relativ dynamisch; da sich Input-Faktoren ändern wird das Dokument sicherlich 1x im Monat neu erzeugt.

Die Grundstruktur ist so, dass aus verschiedenen (internen und externen) Datenquellen dynamisch das "Produkt" gerechnet wird; der Output wird dann sowohl in Webform angezeigt als auch in .pdf-Form gegosen. Vielleicht müssen wir mal nachdenken und vorher ansetzen, d.h. schon bei der Erstellung des pdf-Dokuments dies berücksichtigen (wenn es überhaupt Sinn macht; ist wie gesagt nicht mein Spezielgebiet :censored:).

Einmal im Monat ist nicht wirklich viel. Gleich 2 Versionen machen. Automatisiert - oder per Praktikanten. :D
 

janfliegt

Erfahrenes Mitglied
28.07.2011
6.129
5
FHH (Feld hinterm Haus)
Gmäeß eneir Sutide eneir elgnihcesn Uvinisterät ist es nchit witihcg, in wlecehr Rneflogheie die Bstachuebn in eneim Wrot snid, das ezniige was wcthiig ist, ist, dass der estre und der leztte Bstabchue an der ritihcegn Pstoiion snid. Der Rset knan ein ttoaelr Bsinöldn sien, tedztorm knan man ihn onhe Pemoblre lseen. Das ist so, wiel wir nciht jeedn Bstachuebn enzelin leesn, snderon das Wrot als gseatems.

Erstaunlich wie flüssig das zu lesen ist...

Wieder was gelernt - Rechtschreibung wird überbewertet :D
 

elfi12

Erfahrenes Mitglied
18.08.2010
439
0
Wunsch wäre es bei uns mit entsprechender Prio, aber da wir gerade knapp an Kapazität sind auf Grund von anderen Projekten (suchen daher gerade auch jemand mit Python-Kenntnissen in Teil- und/oder Vollzeit; kann auch remote office sein) wird es wohl Juni werden bis zur Umsetzung.

Tja, Python und PHP sind nicht meine Basis. C#, Java und Javascript gehen immer. Allerdings bin ich derzeit gut gebucht. Soll ich mal quer fragen?
 

peter42

Moderator
Teammitglied
09.03.2009
13.204
1.024
Gerne, wäre super!

Stimmt gut mit der ersten groben Schätzung zusammen :D Wunsch wäre es bei uns mit entsprechender Prio, aber da wir gerade knapp an Kapazität sind auf Grund von anderen Projekten (suchen daher gerade auch jemand mit Python-Kenntnissen in Teil- und/oder Vollzeit; kann auch remote office sein) wird es wohl Juni werden bis zur Umsetzung.

Wüsste evtl. Jemand.
 

euul

Erfahrenes Mitglied
07.07.2015
341
174
Möchte an der Stelle das Tool ImageMagick in den Raum werfen. Damit kann man direkt von pdf nach pdf gehen. Beispiel:

Code:
convert infile.pdf -blur 0x8 outfile.pdf

Mehr unter Bluring and Sharpening -- IM v6 Examples

So etwas in der Art hätte ich auch vorgeschlagen. Allerdings verwendet Imagemagick unter der Haube auch Ghostscript.

Was der OP machen will, geht ja recht einfach mit einem Befehl, z.B.
Code:
find . -type f -iname "*.pdf" | parallel "convert -density 300 {}[0] \( {}[1-10000] -blur 0x8 \) -compress zip {.}_blur.pdf"

Nachteil ist, dass die erste Seite mit Text ebenfalls in ein Bild umgewandelt wird. Ausserdem wird das resultierende PDF ziemlich groß. Mit pdftk o.Ä. lässt sich da sicher noch einiges optimieren, falls gewünscht.
 
  • Like
Reaktionen: elfi12 und linuxguru

Gulliver

Erfahrenes Mitglied
10.11.2009
1.590
17
Kerkrade (NL)
www.kuhnert.nl
Vielleicht ist es ja auch eine Option, eine Schriftart zu suchen, die nicht mehr leserlich (blurred oder blurry) ist, dann ab einer gewünschten Passage alles auf die unleserliche Schriftart zu stellen und das Dokument verschlüsselt (und ggf. als readonly) zu erstellen.
Vorteil: Das Dokument dürfte, weil nur Text vorliegt, nicht so groß werden
Nachteil: Wenn Tools verwendet werden, die die Verschlüsselung knacken (können), könnte man auch ohne zu bezahlen an die Inhalte gelangen.

Ich kenne mich bei unleserlichen Schriftarten nicht aus, aber vielleicht gibt es da ja etwas.
 

peter42

Moderator
Teammitglied
09.03.2009
13.204
1.024
Vielleicht ist es ja auch eine Option, eine Schriftart zu suchen, die nicht mehr leserlich (blurred oder blurry) ist, dann ab einer gewünschten Passage alles auf die unleserliche Schriftart zu stellen und das Dokument verschlüsselt (und ggf. als readonly) zu erstellen.
Vorteil: Das Dokument dürfte, weil nur Text vorliegt, nicht so groß werden
Nachteil: Wenn Tools verwendet werden, die die Verschlüsselung knacken (können), könnte man auch ohne zu bezahlen an die Inhalte gelangen.

Ich kenne mich bei unleserlichen Schriftarten nicht aus, aber vielleicht gibt es da ja etwas.
Da wird man aber den Textlayer extrahieren können - oder?