El corpus CorSinoELE. Corpus de español hablado y escrito por sinohablantes consta de 395 textos orales y escritos producidos por 99 hablantes chinos estudiantes de la Universidad de Beihua, situada en la región china de Jilin, con un nivel de español A2 y B1. Cada estudiante ha elaborado cuatro textos, dos orales y dos escritos, que suponen un total de 15:43:15 de grabación y 55.276 palabras.
En cada modalidad de producción (oral y escrita) hay textos descriptivos y narrativos motivados a partir de unas tareas descritas en el procedimiento de recogida de datos.
CorSinoELE nace con el propósito de facilitar un banco de datos a investigadores del aprendizaje de la lengua española por sinohablantes para realizar estudios léxicos, morfológicos, sintácticos, de análisis del discurso, en general, e incluso fonéticos (con los textos orales). La pretensión es que el corpus se amplíe y otros investigadores puedan albergar sus textos en CorSinoELE para ofrecer a la comunidad científica una dilatada muestra. La dificultad de recopilar textos producidos por sinohablantes de todos los niveles (especialmente de niveles superiores de lengua) crea la necesidad de publicar corpus como CorSinoELE, de acceso abierto y con espíritu de colaboración para crecer
Yin, X. y Martín Vegas, R. A. (2022). CorSinoELE. Corpus de español hablado y escrito por sinohablantes. Disponible en corsinoele.usal.es
*B140TO2: no es un texto válido porque el informante no podía improvisar el discurso y no hablaba nada
TO: tarea oral — TE: tarea escrita
TO1: tarea oral número 1 — TO2: tarea oral número 2
TE1: tarea escrita número 1 — TE2: tarea escrita número 2
Los informantes son hablantes de chino como lengua materna, el inglés es su primera lengua extranjera y fueron seleccionados entre los alumnos del segundo y tercer curso de la carrera de Lengua Española en la Facultad de Lenguas Extranjeras de la Universidad Beihua. En total (tabla 1), 47 alumnos pertenecen en el momento de la producción de textos (mayo y junio de 2022) al segundo curso y 52 alumnos, al tercer curso. Los niveles de idioma correspondientes al finalizar los cursos (junio del 2022) son A2 y B1 respectivamente. Hay un predominio relevante de mujeres, pues en los cursos de lengua extranjera y, particularmente de español, se matriculan muchas más mujeres que hombres.
Tabla 1. Datos de informantes por niveles
La tabla 2 recoge los datos individuales de los informantes por nivel, edad y sexo, con la codificación de cada individuo. Antes de las pruebas, todos ellos fueron informados de las características del trabajo de investigación y dieron su consentimiento por escrito para que sus textos formaran parte del CorSinoELE con fines exclusivamente útiles para investigación.
Tabla 2. Datos individuales de informantes: nivel, edad y sexo
La recogida de muestras se realizó de manera individual en un bis a bis con la investigadora Xingxing Yin. Los textos orales se grabaron mediante la aplicación Hailu y la plataforma virtual Tenxun, ambas usadas habitualmente en las clases a distancia en China. Los participantes del corpus entraron en el aula virtual Tenxun una vez que la investigadora generó el enlace de acceso para cada estudiante particulamente, cronometrado para que no hubiese solapamientos. Tras el consentimiento informado, se presentaron las dos tareas orales de manera sucesiva. Las dos tareas escritas se realizaron en presencia de la profesora en China para evitar el uso del diccionario y el plagio. La profesora los citó por grupos de clase y se aseguró con vigilancia de la espontaneidad de la expresión escrita. Todos los estudiantes citados realizaron las tareas en la misma jornada para evitar preparación previa de la prueba por parte de los grupos.
En la grabación oral, a veces interviene la investigadora para motivar el discurso del estudiante, pero solo en situación de pausa prolongada.
Cada participante realizó cuatro tareas de producción de dos textos orales y dos textos escritos.
Para el diseño de tareas se siguieron los modelos del DELE para el desarrollo de la expresión y la interacción comunicativa. Hay dos tareas orales y dos escritas, una descriptiva y otra narrativa en cada modalidad. Las dos descriptivas tienen como estímulo dos imágenes de escenas cotidianas de personas en grupo y las dos narrativas consisten en contar un viaje realizado y hablar sobre un libro o película que les haya gustado. La duración estimada que se propone para los textos orales es de 5 o 6 minutos y para los textos escritos de 80-100 palabras
La transcripción mediante una herramienta informática no ha sido posible porque las deficiencias de pronunciación y la inclusión del chino en algunos casos distorsionaba el texto. Por tanto, se han transcrito manualmente para garantizar la fidelidad al texto originario sin tener en cuenta las deficiencias fonéticas, constantes, particularmente, en la confusión de las líquidas y las consonantes oclusivas.
Se han usado las convenciones de transcripción que se relatan en las tablas 1 y 2 a partir de Val.Es.Co (Briz y Grupo Val.Es.Co, 1995) y PRESEEA (2008).
Tabla 1. Convenciones de transcripción del grupo Val.Es.Co. A. Briz (coord.), 1995: 40-41
Tabla 2. Convenciones de transcripción del PRESEEA. Disponible en www.linguas.net/preseea
Referencias bibliográficas
Briz, A. (coord.) (1995). La conversación coloquial (Materiales para su estudio). Anejo XVI de la revista Cuadernos de Filología.
PRESEEA (2008). Marcas y etiquetas mínimas obligatorias. Versión 1.2, 17-02-2008. Disponible en https://www.linguas.net/preseea