Voice Conversion

Bei der Voice-Conversion-Technologie wird versucht, die Stimme einer Person so zu verändern, dass sie die Klangmerkmale eines anderen Menschen annimmt. Diese Idee nutzt Algorithmen und maschinelles Lernen mithilfe neuronaler Netze, um die Stimme in Tonhöhe, Timbre (Klangqualität) und Sprechgeschwindigkeit nachzuahmen, ohne dass dabei der Inhalt verändert wird.

Beispiele im privaten Umfeld sind Stimmverzerrungs-Apps oder bei Sprachmodulatoren, die für Unterhaltungszwecke genutzt werden. Sie kommen zudem bei der Erstellung von personalisierten Sprachassistenten zum Einsatz.

In der Wirtschaft wird Voice Conversion für die Optimierung von Call-Center-Diensten genutzt, um Chatbots natürlicher klingen zu lassen. Zudem wird die Technologie im Bereich der Stimmrekognition angewendet, um personalisierte Nutzererfahrungen zu schaffen oder die Sicherheit bei Systemzugängen zu erhöhen, indem nur bestimmte Stimmen zugelassen werden.

Die Gefahr von Voice Conversions bei Phishing-Angriffen

Jedoch birgt Voice Conversion auch ein erhebliches Potenzial für Phishing-Angriffe. Cyberkriminelle nutzen die Technologie, um die Stimmen bekannter Personen eines Opfers – Kolleg*innen, Führungskräfte oder Verwandte – zu imitieren. Diese vertrauenswürdigen Anrufe oder Sprachnachrichten werden eingesetzt, um an vertrauliche Informationen zu gelangen. Voice Conversions stellen daher ein ernsthaftes Problem dar, insbesondere wenn sie in Verbindung mit anderen Phishing-Techniken wie Deepfakes genutzt werden.