FAQ zur Textanonymisierung -

Anonymisierungs-Studio

TTN TSM bietet eine Anonymisierungslösung, um persönliche und vertrauliche Daten in Dokumenten vor der Übersetzung zu schützen. Normalerweise ist die Übersetzung sensibler Texte (wie Krankenakten oder Gerichtsurteile) mit einem Übersetzungsspeicher verboten, weil dabei personenbezogene Daten gespeichert werden, die für andere zugänglich sein könnten. Sollten solche Daten kompromittiert werden (z. B. durch einen Hack), könnten sie rekonstruiert und im Dark Web veröffentlicht werden. Um dies zu verhindern, hat TTN ein Anonymisierungs-Studio entwickelt, das Namen, Nummern und andere identifizierende Details durch Dummy-Daten oder Platzhalter ersetzt. Bei diesem Verfahren werden personenbezogene Informationen entfernt oder unkenntlich gemacht, während die Struktur des Dokuments erhalten bleibt. Wichtig ist, dass die Originaldaten nicht verloren gehen – sie können später mithilfe einer sicheren Schlüssel-Wert-Zuordnungsdatei, die jeden Platzhalter mit dem Originalwert verknüpft, wiederhergestellt werden. Das bedeutet, dass autorisiertes Personal die echten Namen oder Nummern nach der Übersetzung wiederherstellen kann, wodurch die Genauigkeit gewährleistet wird, ohne dass die sensiblen Daten während des Übersetzungsvorgangs jemals preisgegeben werden.

Welche Übersetzungsprojekte erfordern eine Anonymisierung?

Die Anonymisierung ist von entscheidender Bedeutung für jedes Übersetzungsprojekt, bei dem es um personenbezogene oder sensible Informationen geht. Kunden aus stark regulierten Sektoren fragen diese Dienstleistung häufig nach. So müssen beispielsweise medizinische Dokumente (Patientenakten, Laborberichte, Daten aus klinischen Studien) und Rechtstexte (Gerichtsurteile, Verträge mit personenbezogenen Daten) vor der Übersetzung häufig anonymisiert werden. Einrichtungen wie Krankenhäuser, Kliniken, Gerichte und Behörden haben strenge Vertraulichkeitsregeln und Datenschutzgesetze zu befolgen (z. B. GDPR in Europa). Durch die Anonymisierung solcher Texte stellen diese Organisationen sicher, dass sie die Datenschutzbestimmungen einhalten und gleichzeitig den Inhalt übersetzen lassen. Kurz gesagt, jedes Dokument, das Namen, Sozialversicherungs- oder Patienten-IDs, Adressen, finanzielle Details oder andere private Daten enthält, ist ein Kandidat für die Anonymisierung, um die Privatsphäre des Einzelnen während des Übersetzungsworkflows zu schützen. Die Anonymisierungslösung von TTN TSM ist darauf ausgerichtet, diese Anforderungen zu erfüllen, so dass die Übersetzer an den Inhalten arbeiten können, ohne jemals echte persönliche Daten zu sehen.

Wie funktioniert das Anonymisierungsverfahren von TTN?

Das Anonymisierungsstudio von TTN nutzt fortschrittliche Sprachverarbeitung, um vertrauliche Informationen vor der Übersetzung zu identifizieren und zu maskieren. Das System durchsucht den Ausgangstext nach allen persönlichen Identifikatoren – wie Namen von Personen, Firmennamen, Adressen, Kontaktinformationen, Patientennummern, Geburtsdaten usw. – und ersetzt sie dann jeweils durch einen neutralen Platzhalter oder Dummy-Wert. So könnte beispielsweise ein Name wie „John Smith“ durch „Person A“ oder eine bestimmte ID-Nummer durch eine zufällige Dummy-Nummer des gleichen Formats ersetzt werden. Diese Ersetzungen behalten dieselbe Kategorie und dasselbe Format wie die Originaldaten bei (so dass der Text sich weiterhin natürlich liest und für die Übersetzung kohärent bleibt). Das Entscheidende ist, dass keine tatsächlichen persönlichen Daten im Text verbleiben; sie wurden alle durch fiktive Stellvertreter ersetzt.

Sobald diese Ersetzung erfolgt ist, erzeugt TTN eine Schlüssel-Wert-Zuordnungsdatei (manchmal auch als Re-Identifikationsschlüssel bezeichnet). In dieser Datei werden alle sensiblen Originaldaten und die entsprechenden Platzhalter sicher gespeichert. Der anonymisierte Text kann dann gefahrlos zur Übersetzung weitergeleitet (oder von Translation-Memory-Systemen verarbeitet) werden, ohne dass der Datenschutz beeinträchtigt wird. Nach Abschluss der Übersetzung können die Platzhalter im übersetzten Text de-anonymisiert werden – das heisst, TTN TSM verwendet die Schlüsseldatei, um die Dummy-Platzhalter durch die ursprünglichen Namen, Nummern und Details zu ersetzen. Auf diese Weise erhalten Sie ein endgültiges übersetztes Dokument, das alle echten Informationen an den richtigen Stellen wiederherstellt, aber erst nach Abschluss der Übersetzungsarbeit. Während des gesamten Arbeitsablaufs verarbeiten die Übersetzer und die maschinellen Übersetzungssysteme nur anonymisierte Daten, wodurch das Risiko, dass vertrauliche Informationen nach aussen dringen, erheblich verringert wird.

Welche Anonymisierungsmethoden bietet TTN-TSM?

TTN-TSM bietet drei flexible Optionen für die Anonymisierung von Texten, die den unterschiedlichen Sicherheitsanforderungen gerecht werden:

Cloud-basierte KI (ChatGPT): Der Text kann mit der neuesten Version einer KI wie ChatGPT von OpenAI anonymisiert werden. In diesem Modus wird der Inhalt an einen Cloud-KI-Dienst gesendet, der eine anonymisierte Version des Textes zusammen mit der Schlüsselzuordnungsdatei zurücksendet. Diese Methode nutzt zwar leistungsstarke künstliche Intelligenz für eine qualitativ hochwertige Anonymisierung, erfordert jedoch die Übertragung des Textes an externe Server (häufig in den Vereinigten Staaten). Das ist wichtig: Viele Schweizer Bundesbehörden und -institutionen erlauben diesen Modus nicht, weil die Übermittlung vertraulicher Daten an eine in den USA ansässige Cloud die Datensouveränität verletzen könnte (aufgrund von Gesetzen wie dem U.S. CLOUD Act). Mit anderen Worten: Auch wenn die Daten bei der Übertragung anonymisiert werden, wird die einfache Übermittlung sensibler Texte an einen amerikanischen Cloud-Dienst von den Schweizer Aufsichtsbehörden als Sicherheitsrisiko betrachtet.
Schweizer Supercomputer „Alps“ (Nationales KI-Modell der Schweiz): Als Alternative zu ausländischen Cloud-Diensten kann das System von TTN an die schweizerische Supercomputing-Infrastruktur angeschlossen werden. Der Schweizer Nationale Supercomputer mit dem Namen „Alps“ wird für das Training des grossen öffentlichen KI-Modells (bekannt als Apertus – eines der weltweit vielsprachigsten Open-Source-LLMs) eingesetzt. Über diese Schnittstelle kann die Anonymisierung mit Hilfe eines in der Schweiz gehosteten KI-Modells durchgeführt werden. Auf diese Weise bleiben alle Daten in der Schweiz und unterliegen nicht dem US CLOUD Act. Das Schweizer Modell ist hochgradig leistungsfähig (es unterstützt über 1.800 Sprachen), d. h. es kann sensible Begriffe in einer Vielzahl von Sprachen genau identifizieren und ersetzen. Der Einsatz von Alps zur Anonymisierung gewährleistet, dass die Daten auf sicheren, inländischen Servern mit strengen Datenschutzkontrollen verarbeitet werden. Es ist ein idealer Mittelweg für diejenigen, die die Leistung der KI-gesteuerten Anonymisierung nutzen möchten, ohne ihre Daten an ausländische Cloud-Anbieter weiterzugeben.
On-Premises-Modell (Apertus 8B): Für ein Höchstmass an Kontrolle kann TTN ein Anonymisierungsmodell vollständig hinter Ihrer Firewall einsetzen. Konkret kann eine kleinere Version des Schweizer Open-Source-LLM (z.B. Apertus 8B, ein 8-Milliarden-Parameter-Modell) auf lokaler Hardware beim Kunden betrieben werden. Das bedeutet, dass der Text während der Anonymisierung niemals das sichere interne Netzwerk verlässt – die gesamte Verarbeitung erfolgt intern. Auch wenn ein lokales Modell etwas weniger leistungsfähig ist als eine massive Cloud-KI, so ist es doch sehr effektiv bei der Identifizierung personenbezogener Daten und garantiert die vollständige Vertraulichkeit der Daten (da nichts über das Internet gesendet wird). Diese Option wird häufig von Organisationen mit extrem sensiblen Daten gewählt (z. B. Verteidigung, streng geheime Projekte oder Unternehmen mit strengen Richtlinien zur Datenaufbewahrung). Wird das Anonymisierungstool hinter der Firewall betrieben, kann der Auftraggeber sicher sein, dass keine unbefugten Dritten Zugriff auf die Inhalte erhalten. Es handelt sich um eine vollständig eigenständige Lösung.

Jede dieser Methoden erzeugt einen anonymisierten Text und eine Schlüsseldatei. Die Kunden können den Modus wählen, der ihren Sicherheitsbedürfnissen und Compliance-Anforderungen am besten entspricht. Die Plattform von TTN TSM ist flexibel ausgelegt, sodass der Auftraggeber mit einer Methode beginnen und je nach Bedarf zu einer anderen wechseln kann.

Erlaubt die Anonymisierung die sichere Nutzung von TMs?

Ja, absolut. Die Anonymisierung macht die Verwendung von Translation Memory (TM) für vertrauliche Texte sicher. Translation-Memory-Software speichert Sätze (oder Segmente) aus Ausgangstexten und deren Übersetzungen in einer Datenbank zur späteren Wiederverwendung. Durch eine vorgelagerte Anonymisierung speichert das Translation Memory keine personenbezogenen Daten, sondern lediglich Platzhalter und deren Übersetzungen. Dadurch können die Vorteile von Translation Memories genutzt werden, ohne Datenschutzrisiken einzugehen. Dies ermöglicht die Nutzung der Produktivitätsvorteile eines Translation Memorys, ohne private Informationen preiszugeben. In der Tat ist die Anonymisierung von Daten eine empfohlene Best Practice für die Einhaltung der DSGVO in maschinellen Übersetzungsworkflows: Der Übersetzungsspeicher sollte nur anonymisierte oder pseudonymisierte Daten enthalten, so dass nichts darin eine Person identifizieren kann.

Durch die Anonymisierung können Übersetzer TM-Matches und Wiederholungen in sensiblen Projekten vertrauensvoll nutzen, ohne die Vertraulichkeit zu verletzen. Dies ist besonders wertvoll für Bereiche wie Medizin und Recht, in denen Dokumente häufig einen sich wiederholenden Inhalt haben. So werden beispielsweise in medizinischen Berichten häufig Standardphrasen, Terminologien und Standardtexte wiederverwendet. Mit einem Translation Memory müssen diese sich wiederholenden Segmente nur einmal übersetzt werden, und das TM füllt sie dann in zukünftigen Dokumenten automatisch aus. Studien haben gezeigt, dass der Einsatz eines TMs die Übersetzungszeit im Durchschnitt um etwa 50 % reduzieren kann, insbesondere bei Texten mit vielen Wiederholungen (z. B. technische Handbücher oder juristische Dokumente). Im medizinischen Bereich sind Kosten- und Zeiteinsparungen von über 50 % dank hoher Wiederholungsraten keine Seltenheit.

Zusammenfassend lässt sich sagen, dass die Anonymisierung es Unternehmen ermöglicht, Translation Memorys und andere KI-Übersetzungstools für sensible Daten sicher zu nutzen. Das Risiko, dass vertrauliche Informationen nach aussen dringen, ist damit gebannt, während die Effizienzgewinne des Translation Memory erhalten bleiben. Auf diese Weise können Sie schneller und konsistenter übersetzen (indem Sie frühere Übersetzungen wiederverwenden) und haben die Gewissheit, dass Patientennamen, Kundendaten oder andere private Daten während des gesamten Prozesses geschützt bleiben.