1998: El procesamiento de las relaciones sintácticas en la música y el lenguaje

Esta semana comentaré el artículo «Processing syntactic relations in language and music: an ERP study«, publicado en 1998 por Aniruddh D. Patel, Edward Gibson, Jennifer Ratner, Mireille Besson y Phillip J. Holcomb.1

Tanto la escucha musical como la comprensión del habla implican secuencias de elementos estructurados jerárquicamente a partir de principios combinatorios. En ambos casos podemos hablar de la existencia de unas reglas sintácticas, a la vista de que los oyentes competentes, habiendo adquirido un conocimiento implícito de esos principios combinatorios, pueden emitir juicios sobre la corrección de las secuencias en ambos dominios.

Los oyentes que están familiarizados con la música, pueden detectar anomalías armónicas (…), de manera análoga a la forma en que los hablantes competentes de un idioma pueden detectar una incongruencia sintáctica. (…) Una incongruencia armónica que no tenga ninguna rareza psicoacústica o gestáltica (…) es una incongruencia genuinamente gramatical, que se basa en el conocimiento adquirido de las normas de un estilo musical particular.”

El interés central de las investigaciones realizadas por Aniruddh D. Patel y sus colaboradores es analizar el vínculo plausible entre música y lenguaje que podemos encontrar en el procesamiento de la sintaxis. El modo de hacerlo es estudiando la respuesta cerebral ante las incongruencias sintácticas en ambos dominios.

El objetivo de esta investigación fue poner a prueba la especificidad lingüística de un conocido correlato neural del procesamiento sintáctico [el potencial evocado P600]. Este estudio comparó directamente los ERP provocados por incongruencias sintácticas en el lenguaje y la música.”

La investigación parte, por tanto, de la idea de que la música y el lenguaje son sistemas similares. En ambos, elementos perceptivamente discretos (palabras, tonos) se organizan formando secuencias jerárquicamente estructuradas de acuerdo con principios sintácticos. Asumiendo esta analogía, si bien resulta evidente que las características concretas que definen una estructura sintácticamente bien formada son diferentes en cada dominio, este hecho no impide un análisis comparado. Al contrario, según Patel estas diferencias hacen que la comparación sea útil para el análisis de los procesos cognitivos específicos o modulares de cada dominio.

Una de las formas en que se puede comparar el procesamiento cognitivo es observando la respuesta del cerebro ante los estímulos de cada tipo. En este estudio, la técnica mediante la cual se registraron las respuestas cerebrales fue la electroencefalografía (EEG). A través de unos electrodos colocados en la superficie de la cabeza, en un encefalograma se pueden observar las fluctuaciones en la actividad eléctrica cerebral que se dan como respuesta a cada tipo de estímulo. Estas fluctuaciones, que denominan «potenciales evocados» (ERP), se consideran indicios de procesos cognitivos subyacentes.

En esta ocasión, la respuesta cerebral que se buscaba elicitar es el denominado P600.

El objetivo del presente estudio fue determinar si el P600 es específico del lenguaje o si puede obtenerse en secuencias no lingüísticas (pero gobernadas por reglas).”

“El P600 es un componente positivo (…) generado por palabras que son difíciles de integrar estructuralmente en oraciones significativas.”

El P600 es una fluctuación que aparece poco despúes de la aparición de una palabra que, en el contexto de una oración, resulta difícil de integrar desde un punto de vista sintáctico (la letra «P» se corresponde a su polaridad positiva, y el número alude a que su máximo se puede observar 600 milisegundos después del estímulo).

Pongamos como ejemplo estas tres oraciones:

  1. «El policía fue persuadido «de» robar el banco y acabó en la carcel
  2. «El policía esparaba «de» robar el banco y acabó en la carcel
  3. «El policía esparaba «de» la familia cierta comprensión

La diferencia fundamental entre estas tres frases radica en la dificultad que entraña la integración  de la palabra «de» (y las palabras que le siguen) en cada una de las oraciones. El P600 aparecerá en el momento en el que el cerebro se encuentre procesando una relación sintáctica más compleja de lo que podría haberse predicho dado el contexto estructural anterior.

Es importante tener en cuenta que el P600 no es el único (o más antiguo) componente de ERP asociado con el análisis sintáctico.”

Investigaciones anteriores han observado, por ejemplo, un componente negativo conocido como LAN (‘left anterior negativity’), que se produce ante incongruencias sintácticas lingüísticas (las letras «L» y «A», en este caso, se corresponden a la ubicación anterior izquierda en el cuero cabelludo, donde se localiza el potencial evocado, y la letra «N» se refiere a su polaridad negativa). En esta clase de potencial evocado, la latencia depende de el tipo de violación sintáctica (suele darse dentro de una ventana, entre 300 y 500 ms después del estímulo). Los estudios, en cualquier caso, tienden a centrarse en la versión más temprana del LAN, denominada ELAN (‘early left anterior negativity’).

Otro componente que podría estar relacionado sería el P300, que normalmente se produce por un cambio inesperado en una secuencia estructurada de eventos, como un tono alto en una serie de tonos bajos, o un palabra en mayúsculas en el contexto de una frase toda en letras minúsculas. Lee Osterhout y sus colaboradores (1996)2 compararon directamente P300 y P600 utilizando anomalías ortográficas y sintácticas, y concluyeron que los dos componentes serían distintos.

Existe un debate sobre el grado de especificidad cognitiva de los componentes ERP del procesamiento del lenguaje. Por ejemplo, el componente N400 ha sido provocado por estímulos no lingüísticos.

El componente N400 (una fluctuación de polaridad negativa que aparece 400 milisegundos después el estímulo) se ha asociado con los procesos de integración semántica (no con el cálculo de la estructura sintáctica). Una forma de elicitar este potencial evocado sería por medio de una frase del tipo «La pizza estaba demasiado caliente para bebérsela«, por ejemplo, en la que la última palabra resulta a todas luces inadecuada desde un punto de vista semántico.

Lo interesante del componente N400 es que, si bien suele encontrarse en estudios con estímulos lingüísticos, a lo que responde es a una incongruencia semántica (que puede no ser lingüística).

Si el P600 refleja la dificultad de integración estructural en secuencias gobernadas por reglas, las anomalías armónicas en la música también deberían provocar esa forma de onda.

Esta posibilidad habría sido observada en otros estudios anteriores, como por ejemplo el realizado por Mireille Besson y Frédérique Faïta (1995)3 con estímulos musicales, quienes encontraron un potencial positivo con una latencia de unos 600 milisegundos con frases melódicas y secuencias de acordes breves que terminaban desviaciones finales. Lo que no se habría realizado todavía, con anterioridad al estudio de Patel y sus colaboradores (1998),1 es una investigación que compare directamente el procesamiento musical y lingüístico.

En un primer experimento, realizado exclusivamente con estímulos lingüísticos, Patel y sus colaboradores (1998)1 utilizaron tres oraciones:

  1. Some of the senators had promoted an old idea of justice.
  2. Some of the senators endorsed promoted an old idea of justice.
  3. Some of the senators endorsed the promoted an old idea of justice.

En los tres casos, «some of the senators» y «promoted an old idea of justice» se mantenían inalteradas. Sin embargo, las relaciones sintácticas en estas tres oraciones varían significativamente. La primera es una oración declarativa simple. La segunda es gramaticalmente correcta, pero más compleja, pues la palabra «endorsed» resulta localmente ambigua (puede interpretarse como ‘respaldaron’ o como ‘respaldados’). Cuando los oyentes se encuentran por primera vez con el verbo «endorsed» en una oración como la segunda, es probable que lo interpreten como el verbo principal (‘respaldaron’), pero cambiarán la interpretación a la vista de que la continuación fuerza una lectura alternativa. Finalmente, la tercera oración es incorrecta gramaticalmente.

Los resultados del primer experimento fueron consistentes con lo esperado. La primera oración no elicitó un componente P600, en la segunda se observó un P600 pequeño pero significativo y la tercera elicitó el mayor componente P600. Estos resultados muestran, por tanto, que la amplitud del P600 se encuentra inversamente relacionada con la facilidad con la que un elemento lingüístico encaja en un conjunto existente de relaciones sintácticas.

En su segundo experimento, Patel y sus colaboradores utilizaron estímulos musicales. En el contexto de una secuencia de acordes que definía una tonalidad, se introdujo un acorde que podía estar dentro o fuera de la tonalidad. Si no pertenecía a la tonalidad, el acorde podía provenir de una tonalidad «cercana» o «distante». Para definir la distancia entre el acorde irregular y la tonalidad del contexto se utilizó el llamado «círculo de quintas».

En el círculo de quintas, las tonalidades adyacentes se diferencian por una única alteración. Conforme se van distanciando en el diagrama, las alteraciones se van sumando.

patel_1998_5as

Figura 1. Seleccionando los acordes

Según las investigaciones realizadas, las tonalidades más separadas en el círculo de quintas son percibidas como más alejadas que las más cercanas, siguiendo un orden creciente análogo al que representa el círculo de quintas (Bharucha & Stoeckig, 1986).4

La manera en que Patel y sus colaboradores construyeron los estímulos musicales fue sustituyendo el acorde de tónica de una secuencia por otro que no formaba parte de la tonalidad, estableciendo dos grados de irregularidad sintáctica:

  • Para obtener un acorde no perteneciente a la tonalidad «cercano«, eligieron el que se encontrara 3 pasos en sentido contrario a las agujas del reloj, desde el acorde de tónica.
  • Para obtener un acorde no perteneciente a la tonalidad «distante«, eligieron el que se encontrara 5 pasos en sentido contrario a las agujas del reloj, desde el acorde de tónica.

Así, en un contexto que defina la tonalidad de C mayor, el acorde cercano elegido sería Eb, y el acorde distante Db.

Los resultados del segundo experimento fueron también consistentes con la hipótesis inicial. Los acordes que no pertenecían a la tonalidad provocaron un componente positivo de amplitud que variaba en función de la distancia armónica respecto del contexto, que además aparecía en una ventana de tiempo aproximada de 600 ms tras el inicio del acorde irregular. Esto se interpretó como que una demostración de que el componente P600 no era específico del lenguaje.

Es notable que un efecto similar de incongruencia estructural se encuentre en los dos dominios, a pesar del hecho de que se utilizaron principios muy diferentes para crear las incongruencias. Los principios sintácticos del lenguaje utilizados para construir estímulos en este estudio no tenían relación con los principios armónicos utilizados en el diseño de los estímulos musicales.”

“A pesar de las diferencias, se obtuvo un efecto P600 en ambas condiciones, sugiriendo (…)  un mecanismo compartido.”

El principal hallazgo de este estudio es que los acordes que no pertenecían a la tonalidad del contexto provocaron un P600 que era estadísticamente indistinguible del P600 «lingüístico». Esto apuntaría, en opinión de los autores, que los procesos involucrados en la integración sintáctica son compartidos entre los dos dominios.

Otro hallazgo fue un componente que no se habría informado en estudios previos de neuroimagen al que denominaron RATN (‘right anterior temporal negativity’). En principio, este nuevo componente parecía un buen candidato para el estudio del procesamiento sintáctico, pero su significado funcional no quedó del todo claro y finalmente, en estudios posteriores, se prefirió optar por otro tipo de respuesta cerebral, denominada ERAN (‘early right anterior negativity’). La señal ERAN puede obtenerse de manera confiable por acordes estructuralmente inesperados que, además, pueden pertenecer a la tonalidad (es ideal, por tanto, para estudiar el procesamiento de fenómenos como la cadencia engañosa, donde se frustran expectativas estructurales sin vulnerar una regla sintáctica).

La hipótesis de los recursos de integración compartidos

Aniruddh D. Patel y sus colaboradores publicaron la investigación con potenciales evocados que hemos estado comentando en 1998.1 Ese mismo año, publicaron otros dos artículos: «Processing prosodic and musical patterns: A neurophychological investigation» (Patel et al, 1998)5 y «Syntactic processing in language and music: Diferent cognitive operations, similar neural resources?» (Patel, A.D., 1998).6 En el primero de los artículos, Patel y sus colaboradores analizaron el resultado de varias investigaciones realizadas con dos pacientes con amusia adquirida. En el segundo, Patel formuló una primera versión de lo que denominó la hipótesis de los recursos compartidos de integración estructural.

Esta propuesta fue reformulada más tarde, pasándose a llamar hipótesis de los recursos compartidos de integración sintáctica (Patel, A.D., 2003; ver publicación).7

A la vista de los datos extraídos en sus propias investigaciones con potenciales evocados, Patel sugirió que algún aspecto del procesamiento sintáctico se debía compartir entre los dominios musical y lingüístico. Según su hipótesis, aunque las operaciones cognitivas involucradas son diferentes (la música carece de categorías gramaticales, y en la lengua no hay acordes), deben estar basadas en un conjunto común de recursos neuronales que permitan la integración estructural (Patel, A.D., 1998).6

Para desarrollar esta idea, Patel extiende la teoría de la dependencia local (Gibson, 1998)8 al dominio musical. Según el modelo de Gibson, el análisis sintáctico implica procesos simultáneos de predicción e integración estructurales. La predicción se produce por el conocimiento de qué categorías de palabras se requieren para completar una oración gramatical, dada la entrada hasta ese momento. Por ejemplo, si uno escucha «El reportero que…«, sabe que para que la oración esté completa deberán aparecer al menos dos verbos, uno que complete la cláusula introducida por «qué» y otro que viene exigido por «reportero«. Mantener estas predicciones hasta que aparezcan las palabras requeridas supondrá un costo de memoria. Cuanto más tarden en aparecer, mayor será el costo de su integración. Asimismo, la aparición de palabras que causen un re-análisis sintáctico de la oración, también provocará un aumento en el costo de integración, pues implicará la integración de estructuras alternativas que no se encontraban activadas hasta ese momento.

El interés de este modelo, en cualquier caso, no se encuentra en los detalles, sino en que se presenta en unos términos que permiten una comparación entre el procesamiento de la sintaxis musical y lingüística. Del mismo modo que ocurre durante el habla, la escucha musical también implica procesos simultáneos de predicción e integración estructurales. La expectativa musical puede ser algo más problemática, pues no parece responder a reglas tan estrictas como las que operan en la sintaxis lingüística, pero la integración es sin duda un buen candidato a participar en ambos dominios de manera similar.

Para profundizar más en esta propuesta teórica, recomiendo continuar con los artículos «2003: La hipótesis de los recursos de integración sintáctica compartidos entre música y lenguaje (SSIRH)«, «2003: Investigando la hipótesis de los recursos compartidos entre música y lenguaje (SSIRH)» y «2011: El procesamiento de la estructura temporal en la música y el lenguaje«.


REFERENCIAS:

  1. Patel et al. (1998). Processing syntactic relations in language and music: an event-related potential study. [DOI: 10.1162/089892998563121]
  2. Osterhout et al. (1996). On the Language Specificity of the Brain Response to Syntactic Anomalies: Is the Syntactic Positive Shift a Member of the P300 Family? [DOI: 10.1162/jocn.1996.8.6.507]
  3. Besson & Faïta (1995). An event-related potential (ERP) study of musical expectancy: Comparison of musicians and nonmusicians. [DOI: 10.1037/0096-1523.21.6.1278]
  4. Bharucha & Stoeckig (1986). Reaction time and musical expectancy: Priming of chords. [DOI: 10.1037//0096-1523.12.4.403]
  5. Patel et al. (1998). Processing prosodic and musical patterns: A neurophychological investigation. [DOI: 10.1006/brln.1997.1862]
  6. Patel, A.D. (1998). Syntactic processing in language and music: Diferent cognitive operations, similar neural resources? [DOI: 10.2307/40285775]
  7. Patel, A.D. (2003). Language, music, syntax and the brain. [DOI: 10.1093/acprof:oso/9780195123753.001.0001] [Leer más]
  8. Gibson, E. (1998). Linguistic complexity: Locality of syntactic dependencies. [DOI: 10.1016/s0010-0277(98)00034-1]

3 comentarios sobre “1998: El procesamiento de las relaciones sintácticas en la música y el lenguaje

Deja un comentario