Saltar al contenido

Las trampas de usar Google Ngram para estudiar el idioma

julio 2, 2021


Hace cinco años, Google presentó un juguete nuevo y brillante para nerds. La Visor de Google Ngram es seductoramente simple: escriba una palabra o frase y aparecerá un gráfico que rastrea su popularidad en los libros. Millones de libros, 450 millones de palabras, accesibles de repente con solo unas pocas teclas. Es una variante divertida e inteligente del programa Google Books, que escaneó libros de más de una docena de bibliotecas universitarias.

Con Google Ngram, puede rastrear fácilmente la fama de Mickey Mouse frente a Marilyn Monroe, la evolución de los verbos irregulares, la censura en la Alemania nazi y el declive de Dios. Y tanto, tanto, mucho más. Al menos, esa fue la promesa de los investigadores que publicaron un artículo llamativo en la prestigiosa revista Ciencias. Incluso siguieron adelante y le dieron un nombre a su nuevo campo: «culturomics».

Desde entonces, Google Ngram ha estado apareciendo en la literatura científica y en Internet en artículos populares de ciencias sociales. Incluso si no ha escuchado la palabra Ngram, ha visto los gráficos en el familiar rojo, azul y verde del logotipo de Google.

Pero, y probablemente pueda sentir que se avecina un «pero», confiar en Google Ngram para estudiar el auge y la caída de las palabras y las ideas tiene muchos escollos. Un nuevo papel publicado en Más uno describe algunos de los principales problemas con el corpus de libros escaneados que impulsa Google Ngram. «Es tan cautivador, tan poderoso», dice Peter Sheridan Dodds, matemático aplicado de la Universidad de Vermont y coautor del artículo. «Pero creo que hay una tergiversación de lo que la gente debería esperar de este corpus en este momento». Éstos son algunos de los problemas.

Errores de OCR

OCR, o reconocimiento óptico de caracteres, es la forma en que las computadoras toman los píxeles de un libro escaneado y lo convierten en texto. Nunca es un proceso perfecto y solo se vuelve más difícil cuando las computadoras intentan descifrar garabatos en una página de 200 años. Veamos un ejemplo particularmente divertido y profano:

Google Ngram

Solo a partir de los datos, podría preguntarse por qué «joder» desaparece casi por completo en los libros solo para revivir en 1960. Pero, bueno, no fue así. La minúscula larga s en los libros antiguos se parece mucho a un F, un hecho que durante mucho tiempo ha engañado a las computadoras y confundido a los niños que intentan leer la Constitución. Como señala Mark Liberman, lingüista computacional de la Universidad de Pensilvania, la confusión de más s y F aparece una y otra vez: caso versus cafetería, canguelo versus hundido, fama versus mismo. Es probable que existan muchos errores de OCR, pero los sistemáticos como confuso s y F es donde hay que empezar a tener cuidado.

Sobreabundancia de literatura científica

Aún así, una letra incorrecta es bastante trivial. El corpus se distorsiona de formas menos visibles y estas son más insidiosas. El corpus en inglés de Google Book es una mezcla de ficción, no ficción, informes, procedimientos y, como parece mostrar el artículo de Dodds, una gran cantidad de literatura científica. «Está demasiado pegado», dice. Su estudio rastrea la frecuencia de palabras comunes en el mundo académico, como la «Figura» en mayúscula, que probablemente aparezca en el título de un artículo, en comparación con la «figura» en minúscula, que tiene muchos usos más comunes.

Google Ngram



Source link

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *