22 oct 2010

Unha pequena introdución á Lingüística de Corpus.

En lingüística, chamamos corpus a unha base de datos de textos reais que permite un estudo representativo de elementos lingüísticos empregando unha perspectiva cuantitativa.


Un pouco de historia

O uso dos corpora remóntase ao século XIX, cando se comezaron a recompilar textos escritos de linguas mortas para estudalas. Posteriormente, ata mediados do século XX, os corpora seguíronse empregando con outros obxectivos, como o estudo do proceso de adquisición da linguaxe, o establecemento de convencións ortográficas, a obtención de vocabulario para a aprendizaxe de segundas linguas, os estudos comparativos entre linguas e a elaboración de gramáticas descritivas. Porén, a lingüística de corpus é unha metodoloxía especialmente característica dos séculos XX e XXI, cando o uso dos ordenadores fixeron posible almacenar unha grande cantidade de datos en moi pouco espazo.

Durante a primeira metade do século XX os lingüistas estruturalistas americanos, dentro da chamada Primeira Lingüística de Corpus, consideraban que os corpora eran a única metodoloxía válida para o estudo das linguas, xa que deles poderían obter todos os datos que se precisaban para levar a cabo as súas descricións. Esta primeira xeración de lingüística de corpus caracterizábase pola recompilación de mostras de lingua oral, especialmente de linguas nativas americanas en perigo de desaparecer.

Esta metodoloxía recibiu críticas de Chomsky e de Abercrombie. O primeiro consideraba que os corpora non tomaban en conta o recurso da introspección, que el consideraba o único criterio válido para o estudo das linguas, centrándose na actuación (nas mostras realmente producidas) e non na competencia (as mostras que se poderían producir). Segundo Chomsky, só a competencia podería determinar a gramaticalidade dun enunciado. Ademais, Chomsky opina que os corpus conteñen erros, que son parciais e incompletos e que conciben a lingua como unha entidade finita, mentres que el a considera infinita. As críticas de Abercrombie son de tipo práctico, xa que neses momentos o procesamento dos datos nos corpus era lento, custoso e propenso ao erro: isto facía que o seu uso fose, canto menos, discutible nese momento.

Porén, os corpus seguíronse empregando en fonética, na adquisición de linguas e na lingüística histórica, xa que nestes campos o uso de mostras reais era necesario. Porén, non foron empregados en sintaxe.

Durante as décadas de 1960 e 1970 apareceu a chamada segunda lingüística de corpus, agora xa dominada polo uso dos computadores. Esta segunda xeración preocupouse especialmente pola recompilación de corpus representativos, aparecendo conceptos, como os de marco da mostra, representatividade ou equilibrio, aplicados por primeira vez aos corpora. Favorecéronse as mostras escritas, e tomouse a marca do millón de palabras como referencia.

Nesta época comezaron a aparecer corpus electrónicos, sendo o primeiro o Brown Corpus. Outros corpus importantes desta época, como o SEU, non foran concebidos para ser informatizados, pero posteriormente o serían.



Despois desta segunda xeración, algunhas das críticas de Chomsky e Abercrombie foron rebatidas por un número de lingüistas, entre os que sobresae Leech.

Segundo este, o corpus está suxeito á verificación, polo que, desde o punto de vista do método científico, ten vantaxes fronte á introspección. A intuición non pode ofrecer xuízos válidos sobre datos cuantitativos, como a frecuencia de uso, mentres que os corpus si, xa que cun bo deseño os corpus poden reproducir representativamente os datos de frecuencia de uso dunha estrutura, oración ou palabra na totalidade dunha lingua. Segundo Leech, aínda sendo mostras restrinxidas da lingua, os corpus poderíanse considerar un reflexo da competencia, ao ser a maioría dos seus enunciados gramaticais. Malia isto, Chomsky opina que os corpus só serían un pobre reflexo da competencia.

Co uso do ordenador, as críticas prácticas de Abercrombie quedan anuladas, xa que o ordenador é máis rápido que un grupo de persoas, e pode procesar máis datos a un custo reducido e sen cometer erros


A finais dos anos 80 prodúcese un rexurdir da lingüística de corpus. Isto foi debido aos seguintes motivos:
-Maior número de áreas aplicadas á lingüística xeral, e, en particular, á lingüística computacional.
-Eclecticismo no tratamento dos datos lingüísticos, xa que se considera que por si mesmos nin os corpus nin os xuízos introspectivos son suficientes para explicar os fenómenos lingüísticos.
-Maior disponibilidade de corpus electrónicos.
-Novas tecnoloxías (recoñecemento óptico de caracteres) para introducir textos nas bases de datos máis rapidamente.
-Utilidade dos datos cuantitativos (que a intuición non pode proveer) para o estudo da linguaxe.
-Aparición de produtos comerciais sobre a lingua, que fan que os formalismos de representación teórica das gramáticas se amosen como incompletos, sendo necesaria unha base complementaria de mostras lingüísticas representativas para que o produto tome decisións por si mesmo mediante informacións estatísticas e probabilísticas en caso de ambigüidade sintáctica, semántica ou categorial.



Corpus hoxe:

Para que un corpus sexa entendido como tal hoxe en día, necesítanse unha serie de requisitos:
-Os datos deben ser auténticos: é dicir, mostras reais da lingua obxecto de estudo.
-O formato, de cara a manter a utilidade para o lingüista, debe ser electrónico, de cara a automatizar tarefas como a búsqueda e a recuperación da información, o procesamento de datos estatísticos sobre frecuencias de uso, e a clasificación dos datos.
-Os criterios de selección deben ser lingüísticos e cunha finalidade concreta dentro do marco dos estudos de lingüística. A mostra debe ser representativa, de cara a amosar a variedade da lingua a estudar, dentro do seu marco.
-Deben ter un tamaño suficiente (por exemplo, un millón de palabras). Hai corpus finitos, nos cales ao chegar a un número de palabras deixase de recompilar; e corpus abertos ou monitor, nos que se seguen incorporando textos novos. Porén, hoxe en día se pensa que o tamaño non é tan importante como o deseño do corpus.

Entre outras vantaxes, os corpora hoxe en día ofrecen a posibilidade de verificar teorías gramaticais, dan a oportunidade de acceso de forma sinxela a unha grande cantidade de datos de cara ao estudo da linguaxe e o desenvolvemento de sistemas prácticos de procesamento da linguaxe natural; e permitiron, mediante a súa informatización, automatizar tarefas anteriormente realizadas a man, como a determinación da corrección gramatical dunha estrutura ou o seu análise sintáctico.

Os corpora son tamén moi importantes nos estudos de contraste entre dúas linguas e nos que se basean en datos estatísticos ou cuantitativos; e son imprescindibles nos estudos de lingüística diacrónica, como xa eran desde a primeira xeración da lingüística de corpus.

Entre as desvantaxes, podemos mencionar como a máis importante que en determinadas áreas os corpus seguen sen ser suficientes, necesitándose análises manuais.


-----
Esta entrada baséase en boa medida nun capítulo do traballo final da materia 'Lingüística e Informática', impartida na Facultade de Filoloxía da UdC. Debo, polo tanto, dar as grazas á prof. Alonso polas correccións que introduciu no traballo que se poidan ver aquí.
Podedes atopar máis información sobre a lingüística de corpus nesta ligazón da Prof. Milka Villayandre.

No hay comentarios:

Publicar un comentario