Einsatz von Akzenterkennungssoftware durch das Bundesamt für Migration und Flüchtlinge
der Abgeordneten Dr. Petra Sitte, Anke Domscheit-Berg, Dr. André Hahn, Ulla Jelpke, Jan Korte, Niema Movassat, Petra Pau und der Fraktion DIE LINKE.
Vorbemerkung
Im März 2017 berichtete „Die Welt“ von Plänen des Bundesamtes für Migration und Flüchtlinge (BAMF), in Zukunft Sprachproben von Asylantragstellenden aufzunehmen und mittels einer speziellen Software einer automatischen Dialektanalyse zu unterziehen (www.welt.de, „Software soll Dialekt von Asylbewerbern untersuchen“, 17. März 2017). Die ersten Tests dazu sollten noch im März 2017 beginnen, mit einem routinemäßigen Einsatz sei nicht vor 2018 zu rechnen (www.zeit.de, „Dialektsoftware soll Herkunft von Asylbewerbern erkennen“, 17. März 2017). Nach Informationen von „ZEIT ONLINE“ ginge es zunächst um eine Machbarkeitsstudie ohne Realdaten (www.zeit.de, „Software, die an der Realität scheitern muss“, 17. März 2017). Im Juli 2017 informierte das BAMF darüber, dass im Rahmen eines Modellprojekts in Bamberg verschiedene technische Assistenzsysteme für die Identitätsprüfung erprobt würden, darunter auch eine Software für Akzenterkennung, die anhand einer zweiminütigen Sprachprobe Rückschlüsse auf die Herkunftsregion des Sprechers oder der Sprecherin zulassen solle (www.bamf.de, Aktuelle Meldungen, „Moderne Technik im Asylverfahren“, 26. Juli 2017). Die erprobten Systeme würden laut Presseberichten von August 2017 an innerhalb einiger Monate bundesweit eingeführt werden (www.welt.de, „Neue Software soll Flüchtlinge eindeutig identifizieren“, Videobeitrag, 25. Juli 2017).
Laut einem Bericht der „Süddeutschen Zeitung“ von Oktober 2016 werden Sprachanalysen im Rahmen von Asylverfahren durch das BAMF seit 1998 durchgeführt, wozu jährlich 400 bis 700 Gutachten in Auftrag gegeben werden (www.sueddeutsche.de, „Die Grenzen der Sprache“, 7. Oktober 2016). Als Grundlage dienen aufgezeichnete Interviews von ca. 30 Minuten Dauer.
Die Zuverlässigkeit derartiger Analysen ist umstritten; mit welcher Genauigkeit ein automatisches Verfahren eine solche Einordnung nach derzeitigem Stand der Technik durchführen kann, ist unklar. Eine wissenschaftliche Arbeit aus dem Jahr 2016 beschreibt ein Softwareverfahren zur Identifizierung arabischer Dialekte mit einer Zuverlässigkeit von 60 Prozent (Ali et al., Automatic Dialect Detection in Arabic Broadcast Speech, arXiv:1509.06928v2 [cs.CL]). Auch eine erfolgreiche Dialekt- bzw. Akzentidentifikation kann nur Hinweise auf die tatsächliche Herkunft geben, da Sprach- und Dialektgrenzen nicht eindeutig mit Landesgrenzen korrespondieren; und auch Herkunft und Staatsbürgerschaft können auseinanderfallen.
Im Rahmen einer solchen Analyse werden Daten verarbeitet, die zu den besonderen Kategorien personenbezogener Daten („rassische und ethnische Herkunft“) nach Artikel 9 der ab 25. Mai 2018 geltenden Datenschutz-Grundverordnung (DSGVO) gehören. Eine Verarbeitung solcher Daten ist nach DSGVO nur in Ausnahmen erlaubt; eine ausschließlich auf automatisierte Verarbeitung dieser Daten beruhende Entscheidung mit rechtlicher Wirkung für Betroffene wäre nach Artikel 22 DSGVO insbesondere untersagt, sofern keine Rechtsgrundlage besteht, die „spezifische Maßnahmen zur Wahrung der Grundrechte und Interessen der betroffenen Person vorsieht“.
Laut Presseinformationen des BAMF wird „der Umgang mit den Daten [...] gegenüber den Antragstellenden transparent dargelegt“ und „die Ergebnisse werden den Antragstellenden vorgelegt, um die Befunde gemeinsam besprechen zu können“. Zudem soll es sich lediglich um eine „unterstützende Zusatzinformation“ für die Entscheidung handeln (www.bamf.de, Presseinformation „Integriertes Identitätsmanagement – Assistenzsysteme“ vom 25. Juli 2017). Auch wenn das Ergebnis einer solchen algorithmischen Analyse nur als ein Faktor in eine Entscheidung eingeht, birgt sie nach Auffassung der Fragesteller ein erhebliches Risiko einer Ungleichbehandlung mit diskriminierendem Charakter, etwa für Sprecherinnen und Sprecher von Minderheitensprachen, Menschen mit Migrationserfahrungen aus anderen Sprach- oder Dialekträumen oder (je nach Größe und Zusammensetzung der Datenbasis) Menschen bestimmten Geschlechts, Alters oder sozialen Umfelds.
Wir fragen die Bundesregierung:
Fragen23
Welche Softwareverfahren zur automatisierten Akzent- bzw. Dialekterkennung verwendet bzw. testet das BAMF zurzeit oder hat dies in der Vergangenheit getan?
Welcher darüber hinausgehende zukünftige Einsatz ist für diese Software geplant und innerhalb welchen Zeitplans?
Für welche Sprachen bzw. Dialekte steht dem BAMF eine solche Software zur Verfügung, und für welche weiteren ist zukünftig ein Einsatz geplant?
In welchem Umfang wurde diese Software getestet, und ist dieser Test inzwischen abgeschlossen?
Von wem, nach welchen Kriterien, und mit welchem Ergebnis wurde diese Software getestet?
Welche algorithmischen Prinzipien liegen dieser Software zu Grunde?
a) Basiert diese Software insbesondere auf einer Form maschinellen Lernens, und wenn ja, welcher, und auf Grundlage wie gearteter und nach welchen Kriterien ausgewählter bzw. erzeugter Trainingsdaten?
b) Inwieweit ist die Funktionsweise des zu Grunde liegenden Algorithmus dokumentiert, und inwieweit ist diese Dokumentation öffentlich zugänglich?
c) Welche wissenschaftlichen Erkenntnisse zur Eignung des angewandten algorithmischen Verfahrens sind der Bundesregierung bekannt?
Von wem wurde diese Software entwickelt?
Wurde diese Software eigens für den Einsatz beim BAMF entwickelt?
a) Wenn ja, wann, und wie wurde der Auftrag zur Entwicklung vergeben, und welche Anforderungen lagen dem zugrunde?
b) Wenn ja, steht der Quelltext dieser Software frei zur Verfügung (und wenn nicht, wieso nicht)?
c) Wenn nicht, in welcher Form fand die Vergabe statt?
d) Wenn nicht, wurde diese Software oder eine andere Version davon bereits an anderer Stelle eingesetzt, und mit welchen der Bundesregierung bekannten Resultaten?
Wann und in welchem Rahmen fiel der Beschluss zum Einsatz einer solchen Software, über welchen Zeitraum lief die Beschaffung bzw. Entwicklung, und ab wann wurde sie in welchem Umfang eingesetzt?
Welche Erkenntnisse hat die Bundesregierung zur Fehlerquote dieser Software?
Welche Erkenntnisse hat die Bundesregierung über den derzeitigen Stand der Wissenschaft zur automatisierten Akzent- bzw. Dialekterkennung?
a) Welche Arbeiten und Forschungsprojekte sind der Bundesregierung in diesem Bereich bekannt?
b) Inwieweit fließen bzw. flossen Erkenntnisse daraus in die Entwicklung und den Einsatz dieser Software ein?
c) Inwieweit und in welcher Form arbeitet die Bundesregierung in diesem Bereich mit Wissenschaftlerinnen und Wissenschaftlern und wissenschaftlichen Einrichtungen zusammen?
Welche Erkenntnisse hat die Bundesregierung zum Einsatz von Verfahren zur automatisierten Akzent- bzw. Dialekterkennung in anderen Ländern bzw. durch andere Behörden und damit gemachte Erfahrungen?
Auf welchen rechtlichen Grundlagen erfolgt der Einsatz dieser Software?
a) Welche Anforderungen an die eingesetzte Software ergeben sich nach Auffassung der Bundesregierung daraus?
b) Teilt die Bundesregierung die Auffassung der Fragesteller, dass es sich beim Einsatz dieser Software um eine Verarbeitung besonderer Kategorien personenbezogener Daten im Sinne von Artikel 9 DSGVO handelt, und wenn ja, welche(r) der dort aufgeführten Erlaubnistatbestände ist bzw. sind einschlägig?
c) Sehen diese rechtlichen Grundlagen aus Sicht der Bundesregierung spezifische Maßnahmen zur Wahrung der Grundrechte und Interessen der betroffenen Personen vor, und wenn ja, welche?
In welcher Form werden bezogen auf diese Software der Umgang mit den Daten gegenüber den Antragstellenden transparent dargelegt, die Ergebnisse den Antragstellenden vorgelegt und die Befunde gemeinsam besprochen?
a) In welcher Form liegen insbesondere die Ergebnisse dieser Software vor, welche Informationen sind darin enthalten, und wie werden sie nachvollziehbar aufbereitet?
b) In welcher Form wird den Antragstellenden insbesondere die algorithmische Funktionsweise dieser Software dargelegt?
Existieren für die Mitarbeiter des BAMF Qualifikationsmaßnahmen zum Umgang mit dieser Software, und wenn ja, welcher Art, in welchem Umfang, inwieweit ist die Teilnahme daran verpflichtend, und wie werden diese in Anspruch genommen?
Welche Erkenntnisse hat die Bundesregierung über die Zuverlässigkeit der bislang eingesetzten Gutachten zur Sprachanalyse, sowohl für sich genommen als auch im Vergleich zur automatisierten Erkennung?
Wie erklärt sich der Umstand, dass die zur Akzent- bzw. Dialekterkennung im BAMF eingesetzte Software Sprachproben einer Länge von zwei Minuten analysiert, während die Gutachten zur Sprachanalyse auf Aufzeichnungen von ca. 30 Minuten Länge basieren?
Findet die Analyse der Sprachproben vollautomatisiert durch diese Software statt, oder sind menschliche Interventionen bzw. Interpretationen Teil des Prozesses, und wenn ja, in welcher Form?
Welche Rolle spielt das Ergebnis der Analyse durch diese Software im Entscheidungsprozess des BAMF?
a) Welche weiteren Informationen gehen mit welchem Gewicht in die Entscheidung ein, ob Angaben zur Herkunft Glauben geschenkt wird?
b) In wie vielen Fällen wurde diese Software bereits eingesetzt, in wie vielen davon kam sie zu einem mit den Angaben des oder der Antragstellenden nicht zu vereinbarendem Ergebnis, und wie oft wurde in jenen Fällen der Antrag abschlägig beschieden? Was haben in diesen Fällen gerichtliche Überprüfungen der behördlichen Entscheidung erbracht?
c) Wird die Software in jedem Antragsverfahren (oder einer zufälligen Auswahl davon) verwendet, für das sie aufgrund ihrer sprachräumlichen Abdeckung geeignet ist, oder nur in Fällen mit bestimmten Indikationen, und wenn ja, welchen?
d) Wird das Ergebnis dieser Software im Entscheidungsprozess gleichwertig mit dem Ergebnis eines Gutachtens zur Sprachanalyse behandelt?
e) Wird in jedem Fall, in dem diese Software zu einem mit den Angaben des oder der Antragstellenden nicht zu vereinbarendem Ergebnis kommt, auch ein Gutachten zur Sprachanalyse in Auftrag gegeben?
f) In wie vielen Fällen kam diese Software zum Einsatz, in denen auch ein Gutachten zur Sprachanalyse in Auftrag gegeben wurde, und wie oft stimmte sie mit dessen Ergebnis überein bzw. wich davon ab?
Welche Erkenntnisse hat die Bundesregierung über die relative Zuverlässigkeit dieser Software bei der Analyse von Sprachproben von Menschen verschiedenen Geschlechts, Alters oder verschiedener Soziolekte, und welche Maßnahmen wurden bzw. werden ergriffen, um unbeabsichtigte diskriminierende Effekte bezüglich dieser oder anderer Kategorien zu vermeiden?
Sind zukünftig Weiterentwicklungen oder weitere Einsatzgebiete für diese Software geplant, und wenn ja, welche?
Findet eine Evaluation des Einsatzes dieser Software statt, oder ist eine solche zukünftig geplant, und wenn ja, in welcher Form?
In welchem Verhältnis steht der Einsatz dieser Software zur seit kurzem zulässigen Auswertung von Datenträgern von Asylsuchenden zur Klärung der Identität bzw. Herkunft?