Marta Macho Stadler
La digitalización masiva de libros, unida a técnicas cada vez más complejas de análisis de datos, permite realizar estudios de todo tipo, como por ejemplo la densidad de vocabulario de un texto.
El investigador Zack Booth Simpson realizó en el año 2000 un estudio, basándose en manuales digitalizados por el Proyecto Gutenberg: en cada libro contó el número total de palabras y la cantidad de palabras diferentes, es decir, el ‘tamaño’ de su vocabulario. Por supuesto, los textos más voluminosos contenían mayor número de palabras, pero ¿mayor variedad de ellas? La medida relevante de la riqueza del vocabulario es su densidad, es decir, el cociente del número de palabras diferentes entre el número total de ellas.
¿Y cuál resultó ser el libro más rico en vocabulario? Moby Dick de Herman Melville: con 17.227 palabras diferentes para un total de 211.763 –el cociente es 0,0813–; esto significa que Melville introduce una nueva palabra ¡en casi todas las líneas!
Este gráfico –extraído y adaptado del blog ‘Science Étonnante’– resume algunos datos del estudio de Zack Booth Simpson:
El libro menos rico en vocabulario es La Biblia: 12.867 palabras diferentes para 790.126 totales –el cociente es 0,0163–: posee una densidad cinco veces menor que Moby Dick.
Más recientemente, el lingüista Matthew Jockers ha estudiado una base de datos de 3.600 libros digitalizados, para los que ha calculado cerca de 500 características diferentes basadas en el vocabulario, la puntuación, los temas tratados, etc. Todas estas propiedades definen coordenadas para cada libro, y es posible calcular ‘la distancia’ entre dos libros en este espacio de dimensión tan grande.
La anterior imagen muestra una representación de cómo funciona esta distancia entre libros: si dos puntos están cerca, los libros que representan se parecen en muchos de los aspectos estudiados. En el pequeño grupo destacado en la esquina superior izquierda se sitúa Moby Dick y los pocos libros que le son próximos.
Nota: La novela Moby Dick de Herman Melville se publicó en 1851. Narra el viaje del barco ballenero Pequod en su obstinada persecución de una gran ballena blanca. El texto incluye minuciosas descripciones de la caza de ballenas en el siglo XIX y gran abundancia de detalles sobre la vida marinera de aquella época.
Visto en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…), Science Étonnante, 4 de febrero de 2013.
-oOo-
El artículo Moby Dick, un libro extraordinario de Marta Macho Stadler (Departamento de Matemáticas, ZTF-FCT) se publicó en el blog Cuaderno de Cultura Científica el 10 de abril de 2013.
Agradecemos a la Cátedra de Cultura Científica el permitirnos su reproducción en ZTFNews.
Reblogueó esto en Martams's Blogy comentado:
Moby Dick, un libro extraordinario
Me gustaMe gusta