top of page

El corpus: una definición en construcción

Actualizado: 24 feb 2019

Por: Juan David Martínez

juan.david.martinez.hincapie@gmail.com


   Si comparamos la historia de los corpus textuales o lingüísticos con la historia del lenguaje desde el primer momento en que este aparece en la vida del hombre, o con la historia de la escritura o inclusive con la historia del libro y la imprenta, no podremos más que hablar de una realidad y un concepto tan jóvenes como valiosos para para la lingüística. Pese a que se podría defender la idea de que los corpus ya existían desde antiguo, como el caso de los textos que conforman la gramática de Panini, la Suma Teológica de Tomás de Aquino o la Enciclopedia o Canon de Yongle (Daiyun, 2013) ─un compendio de conocimientos más antiguo y extenso que aquel que Diderot concibiera─, ciertamente los corpus textuales irrumpen en el medio lingüístico apenas hace unos setenta años (McEnery y Hardie, 2013) junto a la que sería su aliada desde entonces: la Lingüística computacional. Esto le otorga a los corpus lingüísticos un puesto primordial y necesario dentro de las ciencias y las disciplinas que se apoyan o tienen como centro el lenguaje. A través de los corpus es posible hoy, tal vez más que nunca y sin temor a equivocarnos, hacer evidentes múltiples fenómenos lingüísticos que de otro modo hubiesen pasado desapercibidos (Hunston, 2002). Los corpus lingüísticos constituyen una nueva mirada a los textos. 

Pero como todo concepto relativamente reciente y con cierto atractivo, “corpus” no está exento de un uso tal vez desmedido y ligero. No es extraño encontrarse tesis, trabajos de grado o artículos donde se sostiene que la fuente que tomada para la obtención de datos es un corpus. Hasta este punto no se evidencia ninguna dificultad, salvo cuando el lector constata que aquello denominado corpus es solo un texto cuya extensión no sobrepasa las quinientas o mil palabras. Por fortuna, esta realidad no es muy común, pero merece atención por parte de aquellos que buscan de manera responsable y rigurosa el empleo de los términos que fundan el andamiaje conceptual de su parcela de conocimiento; para nuestro caso, la lingüística.     Así, este texto no tiene la pretensión de ser más que una reflexión documentada de la noción de corpus, un acercamiento a su conceptualización con una mirada crítica y deseosa de concederle el puesto que este se merece. En otras palabras, es necesario precisar conceptualmente qué es un corpus en razón, principalmente, del tamaño o cantidad de información que este contiene y así contar con elementos para diferenciarlo de una muestra, un archivo o un texto. Somos conscientes de que la presente reflexión cuenta con un buen número de citas directas que sobrepasarían las admisibles en cualquier tipo de reflexión. Esto obedece, en primer lugar, a nuestro interés por escuchar algunas voces autorizadas sobre un asunto que cobra cada vez más importancia, dada la frecuencia con la que el trabajo del lingüista y el filólogo se apoya en la construcción o procesamiento de diferentes tipos de corpus; en segundo lugar, porque apoyados en esos referentes conceptuales podremos llegar al centro de nuestra indagación: ¿qué cantidad de información lingüística hace que estemos frente a un corpus? La pregunta no es menor, especialmente cuando se habla de corpus orales:

Por ejemplo, esto se aplica al trabajo con los corpus orales correspondientes, digamos, a una ciudad, cuyo universo no resulta del todo fácil de estimar […] pero otra cosa es decidir el tamaño de cada entrevista, de cada grabación o de cada muestra textual. En otras palabras: ¿cuántas horas de entrevistas son necesarias para alcanzar la representatividad estadística del discurso oral en un registro específico de los hablantes de una ciudad cualquiera? (Parodi,  2008, p. 105) 

Al menos podremos decir, en estas cortas líneas, que nos acercaremos a una respuesta para los corpus compuestos por textos escritos. La palabra corpus, etimológicamente, viene de la raíz indoeuropea kwrep (Watkins, 2011, p. 48) y pasa al latín, con la forma ortográfica corpus, con el significado de cuerpo o conjunto de sistemas que unidos forman un sistema o estructura mayor. La Escuela Lingüística neo-firthiana, liderada por John Sinclair (Koester, 2010; Varela, 2012; McEnery y Hardie, 2013), inicialmente toma la escritura latina y extiende su significado a colección de textos o partes de ellos organizados con fines investigativos. La definición de Sinclair (1991), cuyo mayor interés era describir la lengua inglesa, es precisamente una de las más conocidas: “A collection of naturally occurring language text, chosen to characterize a state or variety of a language” (p. 171). Sin embargo, no es la única definición, pues existen otras que se fueron enriqueciendo con los continuos estudios empíricos efectuados principalmente desde la lingüística. Sin el ánimo de ser exhaustivos, presentamos algunas definiciones de corpus:

A collection of linguistic data, either written texts or a transcription of recorded speech, which can be used as a starting-point of linguistic description or as a means of verifying hypotheses about a language (Crystal, 2008, p. 117).
A collection of pieces of language that are selected and ordered according to explicit linguistic criteria in order to be used as a sample of the language (EAGLES, 1996).
A corpus is a large, principled collection of naturally occurring examples of language stored electronically (Bennett, 2010, p. 2).
conjunto amplio de textos digitales de naturaleza específica y que cuenta con una organización predeterminada en torno a categorías identificables para la descripción y análisis de una variedad de lengua. Este conjunto de textos debe mostrar, de preferencia, accesibilidad desde entornos computacionales y visibilidad de modo que se posibilite su uso en diversas investigaciones con el fin de asegurar acumulación de conocimientos e integración de la investigación de una lengua particular o en comparación con otra. También debe cumplir con aportar detalles relevantes acerca de su recolección y procedencia. De modo más específico, se espera se almacene en conjunto con otros corpus diversos con el fin que se permita su comparación e, idealmente, su contraste. (Parodi, 2008, p. 106-107).
un corpus lingüístico es una colección de elementos que fueron seleccionados, descritos y ordenados con una finalidad explícita: ser usados como muestras representativas de la lengua o de un fenómeno particular de ella. (Molina & Sierra, 2015, p. 309)

Tal como se aprecia, un atributo primordial de los corpus es su representatividad, rasgo que se alcanza con la selección de grandes cantidades de información lingüística, esto es, aproximadamente entre quinientas mil y un millón de palabras, hasta más de cien billones de palabras (Davis, 2018), como el caso de los megacorpus en los que se incorpora la web. Estos tamaños sobrepasan lo que en principio pudo haberse pensado que constituiría un corpus textual. A través de estos corpus se han podido construir, por ejemplo, gramáticas, diccionarios o libros de texto para la enseñanza de una lengua (O’Keeffe, McCarthy y Carter, 2007). Ahora bien, también es posible hablar de pequeños corpus, principalmente aquellos que son especializados o pertenecen a la modalidad oral. Una de las razones para esto radica en la gran complejidad que en muchos casos reviste la recolección del material textual especializado, pues no se publica el mismo número de ejemplares de un periódico que una revista especializada en una subdisciplina científica o humanista como la Biología molecular, la Psicología del comportamiento o la Filosofía política. Otra de las razones que lleva a la construcción de corpus de tamaño reducido es la dificultad propia del procesamiento automático de grandes cantidades de material lingüístico oral, dado que en muchas ocasiones dicho material no es de buena calidad y el tratamiento del lenguaje natural (síntesis y reconocimiento de habla) es altamente complejo. Con todo, los corpus pequeños también cuentan con un número significativo de palabras, como lo evidencian algunas de las investigaciones y artículos consultados. Al respecto citaremos algunos apartes que nos permitirán construir una semblanza de aquello que puede definirse como corpus pequeño: En esta categoría se describe dos corpus que no tienen semejanza con los descritos anteriormente. SemCor es un corpus pequeño (menor a 1 millón de palabras) (Tejada, 2009, p. 49). por el contrario, el CIJU sería considerado como un corpus pequeño por Berber, por tener menos de 80.000 palabras; y estadísticamente, podría decir que el CIJU es pequeño por el número de muestra por grupo (Martínez, 2016, p. 75).

after completing an analysis of a small corpus of 20 newspaper articles using the BE06 Corpus (Anthony & Baker, 2015, p. 24).
there is value in studying a small corpus, such as a story of Samuel Beckett, the works of J. K. Rowling, or a volume of research articles in biochemistry (Anthony, 2013, p. 146).
It has to be pointed out that Cameron and Deignan’s small corpus consists of 28,285 words and that it consists of transcribed talk in a primary school in the UK (Raffaelli y Katunar, 2016, p. 129). 
Since this was a very specific question, in a very specific context, a relatively small corpus (40,000 words) was adequate to explore the role of humour in these two settings (Reppen, 2010, p. 32).
But let’s first define what we mean by a ‘small’ corpus. There are different opinions about what is considered ‘large’ or ‘small’ when it comes to corpora. First of all, it depends on whether the corpus is written or spoken; as it takes quite a long time to compile a spoken corpus (see Adolphs and Knight, this volume), spoken corpora tend to be smaller than written ones. According to O’Keeffe et al. (2007: 4), any spoken corpus containing over a million words of speech is considered large, whereas with written corpora anything under five million words of text is quite small. But many small corpora, even written ones, are a great deal smaller than that, and Flowerdew (2004: 19) notes that there is general agreement that small corpora contain up to 250,000 words (Koester, 2010, p. 67)

Como directamente se sigue de la lectura de las citas, no existe un consenso en lo que respecta a la noción de corpus pequeño. Pese a eso, ninguna de las definiciones o referencias a corpus pequeños toma como base un solo texto de quinientas palabras: los autores que menos material lingüístico consideran son aquellos que toman para su investigación 20 artículos de periódico (Anthony & Baker, 2015). Así las cosas, un corpus pequeño estaría conformado por un conjunto de información lingüística que contenga 250.000 palabras, o 40.000 o una novela completa, o inclusive 20 artículos; no menos de esto. A este hecho se suman los planteamientos que recuerda Sinclair (2005, p. 21) sobre aquello que no es un corpus: i) un archivo, ii) un conjunto de referencias bibliográficas, iii) un conjunto de citas, iv) un texto. Por lo tanto, es menester prestar atención a todo aquello que denominamos corpus. No todo lo es. No podemos caer en la imprecisión de llamarle así a todo, de tomar como corpus aquello que no lo es: un texto corto, un poema, una canción, o un cuento corto. Llamémosle con serenidad muestra, texto, fragmento de texto, archivo o artículo. El rigor de la labor como lingüista o filólogo debe enmarcarse en el rigor y la precisión en el uso de los términos propios de las Ciencias del Lenguaje.  Como anotación final al tema de la extensión mínima considerada corpus, subyace una problemática aún más compleja: la prolongada ausencia de trabajos de investigación, teóricos o empíricos, que respondan la pregunta sobre el tamaño y la representatividad de un corpus oral, escrito o multimodal: ¿cuándo un corpus comienza a ser representativo de un registro de lengua, de una comunidad de habla o de una lengua en general? Este es un problema que merece nuestra atención. Nuestra labor, modesta desde su concepción, consistió en aproximarnos a una respuesta y sugerir que al objeto principal de la metodología denominada Lingüística de Corpus aún le queda camino teórico por recorrer.  Anthony, L. (2013). A Critical Look at Software Tools in Corpus Linguistics. Linguistic Research. 2013; 30(2):141–161.  Anthony, l. & Baker, P. (2015). ProAnt: A freeware tool for automated prototypical text detection. En Federica Formato y Andrew Hardie, Corpus Linguistics 2015. Abstract book. Lancaster: Lancaster.  Bennett, G. (2010). Using Corpora in the Language Learning Classroom: Corpus Lingusitics for Teachers. Michigan: University of Michigan. Crystal, D. (1991). A Dictionary of Linguistics and Phonetics. 6th Edition. Massachusetts: Blackwell.  Daiyun, Y. (2013). El patrimonio cultural chino y su transmisión. Recuperdo el 12 de septiembre de 2018 en: https://ruc.udc.es/dspace/bitstream/handle/2183/10933/CC%2053%20art%2011.pdf?sequence=1&isAllowed=y Davis, M. (2018). English Corpus. Recuperado el 10 de noviembre en https://corpus.byu.edu/corpora.asp EAGLES (1996) Preliminary recommendations on corpus typology. EAG-TCWG-CTYP/P. Pisa: Consiglio Nazionale delle Ricerche. Istituto di Linguistica Computazionale. Recuperado el 8 de noviembre de 2018 en: http://www.ilc.cnr.it/EAGLES96/corpintr/node23.html#ibiblio Hunston, S. (2002). Corpora in Applied Linguistics. Cambridge: Cambridge University Press. Koester, A. (2010). Building Small Specialised Corpora. En Anne O’Keeffe y Michael McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics, (pp. 66-79). Oxford: Routledge. Martínez, J. (2016). Corpus de Interacciones de Jóvenes Universitarios: una experiencia para la investigación del lenguaje en contexto. Revista ALED, 16(1), pp. 61-81. McEnery, T. & Hardie, A. (2013). The History of Corpus Linguistics. En Keith Allan (Ed.), The Oxford Handbook of the History of Linguistics, (p. 2). Oxford: Oxford University Press. Molina, C. & Sierra, G. (2015). Hacia una normalización de la frecuencia de los corpus CREA y CORDE. Revista Signos, 48(89), p. 307-331. Parodi, G. (2008). Lingüística de corpus: una introducción al ámbito. RLA. Revista de Lingüística Teórica y Aplicada, 46(1), p. 93-119. O’Keeffe, A., McCarthy, M. & Carter, R. (2007). From Corpus to Classroom: Language Use and Language Teaching. Cambridge: Cambridge University Press. Raffaelli, I. & Katunar, D. (2016). A Discourse Approach to Conceptual Metaphors: A Corpus-Based Analysis of Sports Discourse in Croatian. Studia Linguistica Universitatis Iagellonicae Cracoviensis, 133, p.p 125–147. Reppen, R. (2010). Building a Corpus. What are the Key Considerations? En Anne O’Keeffe y Michael McCarthy (Eds.), The Routledge Handbook of Corpus Linguistics, (pp. 31-36). Oxford: Routlege.  Sinclair, J. (1991). Corpus, Concordance, Collocation. Oxford. Oxford University Press. ______. (2005) Corpus and Text-Basic  Principles. En M. Wynne (editor), Developing Linguistic Corpora: a Guide to Good Practice (p. 5-24). Oxford: Oxbow Books. Available online from: http://ota.ox.ac.uk/documents/creating/dlc/ Tejada, J. (2009). Construcción automática de un modelo de espacio de palabras mediante relaciones sintagmáticas y paradigmáticas. (Tesis de doctorado). Instituto Politécnico Nacional. México, D.F. Varela, M. (2012). Corpus Linguistics and Language Teaching: Learning English Vocabulary through Corpus Work. ES. Revista de Filología Inglesa, 33, p. 285-300. Watkins, C. (2011). The American Heritage Dictionary of Indo-European Roots. Boston, MA: Houghton Mifflin.

96 visualizaciones0 comentarios
bottom of page