Moby Dick, un libro extraordinario

the-whaleMarta Macho Stadler

La digitalización masiva de libros, unida a técnicas cada vez más complejas de análisis de datos, permite realizar estudios de todo tipo, como por ejemplo la densidad de vocabulario de un texto.

El investigador Zack Booth Simpson realizó en el año 2000 un estudio, basándose en manuales digitalizados por el Proyecto Gutenberg: en cada libro contó el número total de palabras y la cantidad de palabras diferentes, es decir, el ‘tamaño’ de su vocabulario. Por supuesto, los textos más voluminosos contenían mayor número de palabras, pero ¿mayor variedad de ellas? La medida relevante de la riqueza del vocabulario es su densidad, es decir, el cociente del número de palabras diferentes entre el número total de ellas.

¿Y cuál resultó ser el libro más rico en vocabulario? Moby Dick de Herman Melville: con 17.227 palabras diferentes para un total de 211.763 –el cociente es 0,0813–; esto significa que Melville introduce una nueva palabra ¡en casi todas las líneas!

Este gráfico –extraído y adaptado del blog ‘Science Étonnante’– resume algunos datos del estudio de Zack Booth Simpson:

grc3a1fico

El libro menos rico en vocabulario es La Biblia: 12.867 palabras diferentes para 790.126 totales –el cociente es 0,0163–: posee una densidad cinco veces menor que Moby Dick.

Más recientemente, el lingüista Matthew Jockers ha estudiado una base de datos de 3.600 libros digitalizados, para los que ha calculado cerca de 500 características diferentes basadas en el vocabulario, la puntuación, los temas tratados, etc. Todas estas propiedades definen coordenadas para cada libro, y es posible calcular ‘la distancia’ entre dos libros en este espacio de dimensión tan grande.

Imagen de Matthew Jockers, University of Nebraska-Lincoln, tomada de Future Tech.

Imagen de Matthew Jockers, University of Nebraska-Lincoln, tomada de Future Tech.

La anterior imagen muestra una representación de cómo funciona esta distancia entre libros: si dos puntos están cerca, los libros que representan se parecen en muchos de los aspectos estudiados. En el pequeño grupo destacado en la esquina superior izquierda se sitúa Moby Dick y los pocos libros que le son próximos.

Nota: La novela Moby Dick de Herman Melville se publicó en 1851. Narra el viaje del barco ballenero Pequod en su obstinada persecución de una gran ballena blanca. El texto incluye minuciosas descripciones de la caza de ballenas en el siglo XIX y gran abundancia de detalles sobre la vida marinera de aquella época.

Visto en Pourquoi Moby Dick est un livre exceptionnel (et autres enseignements de la littérature numérique…), Science Étonnante, 4 de febrero de 2013.

-oOo-

El artículo Moby Dick, un libro extraordinario de Marta Macho Stadler (Departamento de Matemáticas, ZTF-FCT) se publicó en el blog Cuaderno de Cultura Científica el 10 de abril de 2013.

Agradecemos a la Cátedra de Cultura Científica el permitirnos su reproducción en ZTFNews.

2 Responses to “Moby Dick, un libro extraordinario”


  1. 1 Marta MS 27/09/2016 a las 13:43

    Reblogueó esto en Martams's Blogy comentado:

    Moby Dick, un libro extraordinario

    Me gusta


  1. 1 webhost Trackback en 01/11/2016 a las 17:07

Responder

Introduce tus datos o haz clic en un icono para iniciar sesión:

Logo de WordPress.com

Estás comentando usando tu cuenta de WordPress.com. Cerrar sesión / Cambiar )

Imagen de Twitter

Estás comentando usando tu cuenta de Twitter. Cerrar sesión / Cambiar )

Foto de Facebook

Estás comentando usando tu cuenta de Facebook. Cerrar sesión / Cambiar )

Google+ photo

Estás comentando usando tu cuenta de Google+. Cerrar sesión / Cambiar )

Conectando a %s




UPV/EHU
UPV/EHU
UPV/EHU
Premio a la Mejor Entrada de marzo del Carnaval de Física 2014: El lago elgygytgyn (por Marta Macho)
Premio Mejor Post en la VII Edición del Carnaval de Humanidades..Gracias a Marta Macho
Premio a la Mejor Entrada de la Edición 4.1231 del Carnaval de Matemáticas.

Egutegia | Calendario

septiembre 2016
L M X J V S D
« Ago   Oct »
 1234
567891011
12131415161718
19202122232425
2627282930  

Artxiboak | Archivo

Estatistika | Estadística

  • 2,512,945 sarrerak | visitas

RSS Noticias UPV/EHU

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS UPV/EHU Albisteak

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS Eventos UPV/EHU

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

RSS UPV/EHU Ekitaldiak

  • Ha ocurrido un error; probablemente el feed está caído. Inténtalo de nuevo más tarde.

A %d blogueros les gusta esto: