Das Bilingual Language Interaction Network for Comprehension of Speech (Abb. 2) ist ein Modell zur Worterkennung bilingualer Sprecher, das neben dem auditorischen Input auch visuelle Informationen berücksichtigt und aus diesem Grund auf crossmodale Experimente wie das in unserer Arbeit beschriebene zugeschnitten ist, da wir auditive und visuelle Stimuli verwendet haben, die bei der Worterkennung kontrolliert werden müssen. Wie in Abb. 11 zu entnehmen ist, verweisen Shook und Marian (2013) auf den sog. McGurk Effekt, um auf die Bedeutung der visuellen Informationen im Rahmen der Sprachverarbeitung hinzuweisen. Auch wenn diese Beobachtungen nicht explizit zu den Aufgaben des Modells gehören, sollte vielmehr der Tatsache Rechnung getragen werden, dass visuelle Informationen die Sprachverarbeitung beeinflussen können. Das Modell besteht aus mehreren miteinander verbundenen Repräsentationsebenen: eine geteilte phonologische Ebene, jeweils eine phono-lexikalische und ortho-lexikalische Ebene sowie eine geteilte semantische Ebene. Zwischen den Repräsentationsebenen findet ein bidirektionaler Austausch statt, der Bottom-up- und Top-down-Verarbeitung ermöglicht. Die visuellen Informationen sind mit der phonologischen und semantischen Repräsentationsebene verknüpft (Shook und Marian 2013).

Auf der phonologischen Ebene wird akustisches Signal verarbeitet, aus dem einzelne Segmente herausgefiltert werden. Die Verarbeitung wird durch dreidimensionale Vektoren ermöglicht, die das einströmende Sprachsignal anhand von phonetischen Merkmalen wie z.B. Stimmhaftigkeit, Artikulationsort und –art segmentieren. So ist etwa der Laut /t/ in Tasse beispielsweise ein stimmloser, alveolarer Plosiv und das /a/ ein zentraler, tiefer Vokal. Die dreidimensionalen Vektoren sind wiederum Bestandteil auf der phonolexikalischen Ebene, wo segmentierte phonologische Einheiten der Silbenstruktur von Wörtern zugeordnet werden. Die Silbenstruktur ist als dreisilbiges Muster nach dem Schema CCVVCC/CCVVCC/CCVVCC modelliert, das für jede Position einen dreidimensionalen Vektor vorsieht (vgl. Shook und Marian 2013). Demzufolge wird z.B. ein zweisilbiges Wort wie Tasse als [tCaVCC/sCəVCC/CCVVCC] repräsentiert. Im Gegensatz zu einer linearen Verarbeitung wie z.B. im Kohortenmodell, bietet das BLINCS-Modell durch die Integration der Silbenstruktur einen entscheidenden Vorteil. Nehmen wir beispielsweise an, dass die Wörter Tasse und Trasse erkannt werden müssen, ist nach dem Kohortenmodell der Diskriminationspunkt nach /r/ bei Trasse erreicht. Wird z.B. das /r/ aus dem Lautstrom segmentiert, konkurriert Trasse nicht mehr mit Tasse, sondern mit Wörtern wie etwa Trafo oder Trakt um Selektion. Die Besonderheit der Erfassung der Silbenstruktur liegt darin, dass nicht die lineare Abfolge der Phoneme verglichen wird wie z.B. /t/ mit /t/ und dann /r/ mit /a/, wodurch ein Kandidat bereits aus der Kohorte ausscheiden würde, sondern die Position der Phoneme innerhalb der Silbe. Der Vokal /a/ in Tasse [tCaVCC/sCəVCC/CCVVCC] und Trafo [traVCC/sCəVCC/CCVVCC] besetzt jeweils die gleiche Position, wodurch phonologische Ähnlichkeiten berücksichtigt werden können (vgl. Shook und Marian 2013: 307). Zusätzlich zur phono-lexikalischen Ebene, wird eine ortho-lexikalische Verarbeitungsebene angenommen, auf der die entsprechenden orthographischen Repräsentationen eines Sprachsystems angesiedelt sind. Bezogen auf das deutsche und portugiesische Sprachsystem beinhaltet die ortho-lexikalische Ebene einen Mechanismus, der die 26 Grundbuchstaben des Alphabets sowie die Umlaute <ä>, <ü> und <ö> für die deutsche und diakritische Formen wie z.B. <á>, <à>, <â>, <ã> oder <ç> für die portugiesische Sprache umfasst. Die Verarbeitung auf der semantischen Ebene basiert auf einem Korpus von rund 330 Millionen Einträgen, für die jeweils 200 dimensionale Vektoren programmiert wurden, die sich aus semantischen Merkmalen zusammensetzen, die bei der Worterkennung bilingualer Sprecher eine wesentliche Rolle spielen (vgl. dazu 3.4.2, siehe auch Kroll und de Groot, Annette M. B. 1997). Eine Besonderheit in diesem Modell ist die Integration von visuellen Reizen, die mit der phonologischen und semantischen Ebene verbunden sind. Evidenz für die beeinflussende Wirkung visueller Informationen auf die Verarbeitung bzw. Wahrnehmung eines akustischen Signals stammen aus unterschiedlichen Untersuchungen, die den oben erwähnten McGurk Effekt nachweisen konnten. Dieser beschreibt, dass Laute aufgrund visueller Informationen unterschiedlich wahrgenommen werden können. Für unsere Studie in Abschnitt 5 ist dieser Befund jedoch nicht relevant, da wir mit Sprachaufnahmen und statischen Bildern arbeiten werden. Überdies zeigten verschiedene Ergebnisse aus Eyetracking Experimenten, dass Sprachverarbeitung durch visuelle Informationen beeinflusst werden kann (u.a. Tanenhaus et al. 1995; Tanenhaus 2000; Marian 2009). Aus diesem Grund wird eine Verknüpfung zwischen der visuellen Information und der semantischen Ebene vorgeschlagen:
“[…] direct connections from a visual-input module to the semantic level served to stimulate non-linguistic constraint effects, where the presence or absence of objects in a visual scene can affect language processing.” (Shook und Marian 2013: 308)
Auch in unserer Studie werden die visuellen Informationen notwendig sein, um Aussagen über die Worterkennung von Mehrsprachigen machen zu können. So soll Präsenz oder Abwesenheit bestimmter Objekte zu unterschiedlichen Reaktionen der Probanden führen, was mittels Blickbewegungsmessung belegt werden soll.