From transcription to analysis: technical developments of the Val.Es.Co. 3.0. corpus
Keywords:
oral corpus, computational linguistics, discourse segmentation, transcription, corpus Val.Es.Co., spoken SpanishCopyright (c) 2024 Salvador Pons Bordería, Sara Badia-Climent

This work is licensed under a Creative Commons Attribution-NonCommercial 4.0 International License.
Abstract
This article examines the theoretical and technical decisions involved in the elaboration of the Val.Es.Co. 3.0 corpus. Its main goal is to detail the steps taken to develop an accessible digital oral corpus. The Val.Es.Co. 3.0 corpus provides users with spontaneous conversations and a system of discourse-based tags. It also analizes a subset of conversations with the Val.Es.Co. model of discourse units: subacts, acts, interventions, dialogues, and discourses. This article is divided into three sections. Section two outlines the two basic pillars of the creation process for the Val.Es.Co. 3.0 corpus: transcription and its subsequent analysis. Section 3 describes the backend, especially the technical decisions adopted during the processes of transcription and discourse segmentation. Finally, Section 4 explains how the transcriptions are displayed on the website and details the corpus
frontend main features.
Downloads
References
Albelda, Marta, y Maria Estellés (dirs.), Corpus Ameresco. Disponible en: https://corpusameresco.com. [Fecha de consulta: 8 de septiembre de 2024].
Alcaraz Martínez, Rubén, y Elisabet Vázquez Puig (2016), «TEI: un estándar para codificar textos en el ámbito de las humanidades digitales», BiD: Textos Universitaris de Biblioteconomia i Documentació, 37: s.p. DOI: 10.1344/BiD2016.37.24.
Bolaños Cuéllar, Sergio (2015), «La lingüística de corpus: perspectivas para la investigación lingüística contemporánea», Forma y Función, 28 (1): 31-54. DOI: 10.15446/fyf.v28n1.51970.
Briz, Antonio (1996), El español coloquial: situación y uso, Barcelona, Ariel.
Briz Antonio. (2010), «Lo coloquial y lo formal, el eje de la variedad lingüística», en Castañer, R. M. y Lagüéns, V. (eds.): «De moneda nunca usada»: Estudios dedicados a José Ma Enguita Utrilla, Zaragoza, Instituto Fernando El Católico: 125-133.
Briz, Antonio et al. (1995), La conversación coloquial: materiales para su estudio, Valencia, Universitat de València.
Briz, Antonio y Carcelén, A. (2019): «El futuro iberoamericano del español: la investigación del español oral y en español», en Richard Bueno Hudson (dir.), El español en el mundo: anuario del Instituto Cervantes 2019, Madrid, Bala Perdida/Instituto Cervantes: 189-217.
Brun, Rircardo Eíto (2005). «XML y la gestión de contenidos», Hipertext. net: Revista Académica sobre Documentación Digital y Comunicación Interactiva, 3: s.p.
Cabedo Nebot, Adrián (2011). «El reajuste tonal en la delimitación de grupos entonativos», en Antonio Hidalgo Navarro, Yolanda Congosto Martín y Mercedes Quilis Merín (eds.), El estudio de la prosodia en España en el siglo xxi: Perspectivas y ámbitos, Valencia, Universitat de València, 209-222.
Cabanes Pérez, Sandra (2023), Análisis multimodal en la distinción entre intervención y turno: efectos en la segmentación de la conversación desde el modelo Val.Es.Co., tesis doctoral, Universitat de València.
Cestero Mancera, Ana M.ª (2014), «Comunicación no verbal y comunicación eficaz», ELUA, 28: 125-150.
CORPES = Real Academia Española, Corpus del Español del Siglo XXI. Disponible en: https://www.rae.es/corpes. [Fecha de consulta: 8 de septiembre de 2024].
Criado de Val, Manuel (1964), Fisonomía del español y de las lenguas modernas, Madrid, Aguilar.
Del Rio Riande, Gimena, y Susanna Allés-Torrent (2023). «Treinta años de TEI en español: usos y comunidad». Journal of the Text Encoding Initiative, 16: 1-8.
ESLORA = Corpus para el estudio del español oral, versión 2.3. Disponible en: <http://eslora.usc.es>. [Fecha de consulta: octubre de 2024].
García-Miguel, José M. (2022), «Lingüística de corpus», Estudios de Lingüística del Español, 45: 11-42.
Garfinkel, Harold (1967), Studies in ethnomethodology, Englewood Cliffs, Prentice-Hall.
Jefferson, Gail (2004), «Glossary of transcript symbols with an introduction», en Gene Lerner (ed.), Conversation analysis: studies from the first generation, Amsterdam (Phil.), John Benjamin: 13-31. DOI: 10.1075/pbns.125.02jef.
Llamazares, Milka Villayandre (2008), «Lingüística con corpus (I)», Estudios Humanísticos. Filología, 30: 329-349. DOI: 10.18002/ehf.v0i30.2847?.
Lope Blanch., Juan M. (1971), «El léxico de la zona maya en el marco de la dialectología mexicana», Nueva Revista de Filología Hispánica, 20 (1): 1-63. DOI: 10.24201/nrfh.v20i1.1557.
Lope Blanch, Juan M. (1976), «Algunos casos de polimorfismo fonético en México», Revista de Dialectología y Tradiciones Populares, 32 (1): 247-262.
Lope Blanch, Juan M. (1986), El estudio del español hablado culto: historia de un proyecto, Ciudad de México, Universidad Nacional Autónoma de México.
Marcos Marín, Francisco (dir.), Corpus Oral de Referencia de la Lengua Española Contemporánea (CORLEC). Disponible en: https://cvc.cervantes.es/lengua/corlec.htm. [Fecha de consulta: 8 de septiembre de 2024].
Narbona, Antonio (1989), Sintaxis española: nuevos y viejos enfoques, Barcelona, Ariel.
O’Keefe, Daniel J. (1979), «Ethnomethodology», Journal for the Theory of Social Behaviour, 9 (2): 187-219.
Pons Bordería, Salvador (dir.), Corpus Val.Es.Co. Disponible en: http://www.valesco.es. [Fecha de consulta: 8 de septiembre de 2024].
Pons Bordería, Salvador (ed.) (2014): Discourse segmentation in Romance languages. Amsterdam (Phil.), John Benjamins.
Pons Bordería, Salvador (2016). «Cómo dividir una conversación en actos y subactos», en Antonio Miguel Bañón et al. (eds.), Oralidad y análisis del discurso: homenaje a Luis Cortés Rodríguez, Almería, Universidad de Almería, 545-566.
Pons Bordería, Salvador (2022), Creación y análisis de corpus orales: saberes prácticos y reflexiones teóricas, Berna, Peter Lang.
Poyatos, Fernando (1994), La comunicación no verbal, Madrid, Istmo.
Poyatos, Fernando (2018), Advances in non-berbal communication, Amsterdam (Phil.), John Benjamins.
PRESEEA = Proyecto para el estudio sociolingüístico del español de España y América. Disponible en: https://preseea.linguas.net. [Fecha de consulta: 8 de septiembre de 2024].
Rojo, Guillermo (2016), «Los corpus textuales del español», Enciclopedia lingüística hispánica, 2: 285-296. DOI: 10.4324/9781315792942.
Rojo, Guillermo (2024). «El futuro de los corpus de referencia», Studia Linguistica Romanica, 12: 18-33.
Roulet, Eddy, Laurent Fillietaz, y Anne Grobet (2002), «Un modèle et un instrument d’analyse de l’organisation du discours», en Patrick Charaudeau y Dominique Maingueneau (eds.), Dictionnaire d’analyse du discours, París, Seuil.
Roulet, Eddy, et al. (1981), L’articulation du discours en français contemporain, Berna, Peter Lang.
Sacks, Harvey, Emanuel A. Schegloff, y Gail Jefferson (1974), «A simplest systematics for the organization of turn-taking for conversation», Language, 50 (4): 696-735.
Sacks, Harvey, y Gail Jefferson (2000), «Convenciones de transcripción», en Teun A. Van Dijk (comp.), El discurso como estructura y proceso. Estudios del discurso: introducción multidisciplinaria, Barcelona, Gedisa: 442-444.
Torruella, Joan, y Joaquim Llisterri (1999), «Diseño de corpus textuales y orales», en José Manuel Blecua, Gloria Clavería, Carlos Sánchez y Joan Torruella (eds.): Filología e informática: nuevas tecnologías en los estudios filológicos, Barcelona, Milenio/Universidad Autónoma de Barcelona: 45-77.
Val.Es.Co. (2014), «Las unidades del discurso oral: la propuesta Val.Es.Co. de segmentación de la conversación (coloquial)», Estudios de Lingüística del Español, 35: 11-71.
Vázquez Rozas, Victoria, et al. (2020), «Codificación y anotación del habla en un contexto bilingüe: el corpus ESLORA de español de Galicia» en Ángel Gallego y Francesc Roca (eds.), Dialectología Digital del Español, Santiago de Compostela, Universidade de Santiago de Compostela, 189-224.
Venegas, Rene, Iris Viviana Bosio, y Constanza Ceda-Canales (2022), «Los corpus sincrónicos del español: descripción y potencialidades para la investigación teórica y aplicada de la lengua», Revista de Lexicografía y Lingüística Aplicada, 22 (3): 45-67.
Zimmerman, Don H. (1978), «Ethnomethodology», The American Sociologist, 13 (1), 6-15.