Experimentos y tendencias en Google Labs

De los “Laboratorios Google” acaba de salir una nueva herramienta que me tiene enganchado desde hace unos días. Se llama Books Ngram Viewer y te da la oportunidad de analizar datos extraídos de búsquedas en libros de una manera rápida y sencilla.

La idea es simplemente brillante y puede tener mil y un usos: Visualizar conceptos y palabras, comprobar sus subidas y bajadas a lo largo del tiempo. En total, la nueva e impresionante herramienta del todopoderoso google, analiza más de 5 millones de libros a lo largo de los últimos 500 años y te expone los resultados en una gráfica.

Una herramienta que, bien entendida, puede acercarnos una idea aproximada de la linea de tiempo que algunos conceptos han tenido en estos últimos 500 años. Evidentemente, no tiene la fiabilidad que debería exigirse a una estadística rigurosa, pero sí que puede ofrecernos una visión interesante sobre qué conceptos e ideas han ido teniendo éxito a lo largo de estos siglos y cuáles han ido cayendo en desuso.

Veamos algunos ejemplos para hacernos una idea.

Últimamente en Amazings le hemos estado prestando una especial atención al tema de la homeopatía. Se trata de una pseudociencia que, en nuestra opinión, está teniendo un repunte durante estos últimos años realmente preocupante. Pero… ¿Qué ocurre si buscamos el término “homeopatía” en los libros publicados durante estos últimos 200 años? Bueno, pues vamos a ver si es para preocuparse o no…

Homeopatía | Busqueda 1800 hasta 2000

La búsqueda realizada para el gráfico superior corresponde al término “Homeopatía” en libros en castellano desde 1800 hasta el año 2000 (antes de 1800 y como podréis imaginar no tiene mucho sentido indagar). La gráfica muestra una gran subida en la época en que las “enseñanzas” de Samuel Hahnemann llegaron a España (allá por mediados de 1800) con un rápido descenso a finales del siglo XIX.

Sin embargo, y después de un largo letargo de casi un siglo (la gran parte del siglo XX) en el que en España no se hablaba de este término, de repente nos encontramos un repunte digno de mención en las publicaciones a partir del año 2000. Vuelve la homeopatía y se situa (en realidad, nos sitúa) en niveles de hace 100 años.

¿Preocupante?… Veamos qué ocurre si amplio la búsqueda e introduzco el término “Homeopathy” en búsquedas para libros en inglés durante los últimos 200 años.

Homeopathy | Búsqueda en libros en inglés 1800 – 2000

El incremento de libros que hablan o citan el término “homopathy” en inglés es realmente espectacular en los últimos años, hasta llegar a niveles que dejan en ridículo los pequeños repuntes que se dieron entre 1840 y 1860.

Pasemos a otros términos.

Por ejemplo, y como no podía faltar, el término “acupuntura“. Aunque esta pseudociencia dice tener miles de años de antigüedad, hay que tener en cuenta que llegó a Europa de mano de unos misioneros a mediados del siglo XVII, aunque en realidad, apenas tuvo repercusión en nuestro continente hasta el siglo XIX.

Por tanto, y para que la búsqueda sea lo más precisa posible, voy a buscar el término “acupuntura” en libros publicados en España desde 1800 hasta la actualidad y veamos qué ocurre…

Acupuntura | Libros en español 1800 – 2000

Volvemos a observar que a mediados del siglo XIX, en el que se pusieron muy de moda pseudociencias de todo tipo (el espiritismo es un ejemplo bastante significativo), la gráfica muestra una subida que, con sus altibajos, desciende hasta casi el olvido durante el siglo XX.

De repente, llegan los años 60 y el repunte de esta “terapia” comienza un ascenso hasta llegar a los ridículos niveles actuales que podéis observar en el gráfico.

Intentémoslo ahora con el mismo término pero en esta ocasión en búsquedas para libros en inglés: “Acupuncture” en el mismo periodo: 1800 – 2000. Además, la herramienta de google nos permite distinguir entre dos tipos de libros (English – American English)

Acupuncture | Libros en inglés 1800 – 2000
Acupuncture | Libros en inglés (América) 1800 – 2000

Como vemos, nuestros amigos escépticos de Inglaterra y América también parecen tener un problema con estos repuntes. Jamás en la Historia se citó o se nombró el término “Acupuncture” como en estos últimos años.

Ya le voy pillando el gustillo a esta herramienta, así que, ya puestos… voy a continuar con una palabra que me ha dado más de una sorpresa en las búsquedas que he realizado.

El Tarot… Una pseudociencia que ya debería estar totalmente abandonada y que está más que desterrada del sentido común general. Nadie con un mínimo de sentido común debería, a estas alturas de siglo XXI, hacerle caso a estas ridículas prácticas astrológicas.

Aun así, los tarotistas se cuentan por millares y el contante que mueven en llamadas de teléfono y lineas de tarot, anuncios de periódicos, programas de TV, resulta un negocio multimillonario hoy en día.

Tarot | Libros en español 1800 – 2000

Espeluznante. La búsqueda entre más de 5 millones de libros que ofrece google muestra que jamás la palabra “Tarot” apareció en tantos documentos como hoy en día, y la tendencia parece que va a continuar.

Idéntica búsqueda en libros en inglés en sus dos acepciones muestra las mismas tendencias.

Tarot
Tarot | Libros en Inglés desde 1800 – 2000
Tarot | Libros en inglés (América) desde 1800 – 2000

El volumen de libros, documentos, guías o manuales sobre pseudociencias es cada vez mayor. He realizado más búsquedas, que para no extender demasiado el artículo no voy a incluir, pero los resultados son similares. Estamos viviendo un increíble y ridículo auge del pensamiento mágico que no tiene precedentes, y lo verdaderamente preocupante es que está llevando al sentido común a cotas de siglos pasados.

Lo cierto, es que podría haberme ahorrado estas búsquedas que he realizado en estos días. Tan sólo con mirar con un poco de objetividad a mi alrededor me hubiera bastado: los programas de pseudociencias y misterio copan los prime-times de infinidad de televisiones y radios, las revistas y libros sobre todo tipo de terapias milagrosas, ocultismos y magufadas abarrotan los estantes de las grandes librerías, y no hay que ser un genio… Si están ahí es porque las gente las consume, compra esos libros, ve esos documentales, y escucha esos programas de misterio.

Y aún hay gente que piensa que hablar de escepticismo y de pensamiento crítico ya no es necesario, que ya se ha hablado “suficiente”, que no hace falta divulgar más sobre el tema… no han mirado bien a su alrededor, no se han parado a pensar la de tonterías que se cree la gente aún en estos días.

Una búsqueda más… sólo una: Ciencia… así, en frío. A ver qué nos muestra la herramienta de google y su búsqueda entre todo ese volumen de libros durante los últimos 200 años.

Ciencia | Libros en español desde 1800 hasta 2000

En un mundo cada vez más rodeado de ciencia y tecnología, mirar la tendencia de los últimos 10 años da escalofrios. Bienvenidos al siglo XXI… o ¿quise decir XIX?

42 Comentarios

Participa Suscríbete

CarlosCarlos

Muy interesante si.
Pero, en el último link que poneis “¿quise decir XIX?, hay un error, en todas las graficas que he mirado en el Google Ngram Viewer,, así por encima, te diría que los érminos ciencia y dios, están al revés, la ciencia siempre está por encima de dios en las gráficas.
Otra cosa,
smoothing, ¿qué es?, el último menú desplegable.

Irreductible

Hola Carlos.

En el último link la búsqueda es entre Dios y ciencia… Tienes que tener en cuenta que la herramienta de google distingue entre mayúsculas y minúsculas. Así pues las graficas segun pongas mayúsculas o no son diferentes.

Si buscas Dios y ciencia (Dios en grandote el jefazo con mayúscula, refiriéndote a Dios) aparece esta gráfica (que es la que muestro en el link)

http://ngrams.googlelabs.com/graph?c...smoothing=3

Mientras que si pones “dios” en minúscula la gráfica es diferente:

http://ngrams.googlelabs.com/graph?c...smoothing=3

Aunque la búsqueda en inglés y a pesar de que lleva bastante ventaja todavía arroja algo más de optimismo:

http://ngrams.googlelabs.com/graph?c...smoothing=3

En inglés (América) también similar tendencia (aunque con repunte esta última década)

http://ngrams.googlelabs.com/graph?c...smoothing=3

claudatorclaudator

Hola Carlos,

smoothing es el suavizado que se aplica a la gráfica. No sé cómo se hará en este caso concreto, pero lo más probable es que si eliges un smoothing de 5, represente, para cada año, una media de los 5 años anteriores, en vez del dato “bruto” de ese año. Así se consiguen gráficas más suaves, sin tantos picos y altibajos, y se aprecian mejor las tendencias globales.

Un saludo

Aitor - Somos Medicina

Yo le veo un pequeño fallo metodológico a este “estudio” y es que el buscador de Ngram es case sensitive por lo que para ser más exactos cada búsqueda debería haberse realizado optando por la forma que comienza con mayúscula o por minúscula en todos los casos. Por ejemplo veo que has usado “Acupuncture” pero en español “acupuntura”, la diferencia es significativa: http://ngrams.googlelabs.com/graph?c...smoothing=3
Y si añades libros hasta 2008 en este caso hay una bajada notable!

En cualquier caso una nueva e interesante herramienta de Google, gracias por el análisis.

AbbiAbbi

Me ha parecido interesante el comentario, pero cuando se tratan gráficos se debe hacer con precaución. Quizá sea verdad que se publican más libros sobre esos temas, pero no podría deberse a un aumento en general de las publicaciones? Al menos en cierta medida.

Irreductible

Lo cierto es que la herramienta da un montón de posibilidades.

Opté por los resultados hasta el 2000… aunque en la mayoría de los casos (y depende de las búsquedas) los resultados son bastante similares:

http://ngrams.googlelabs.com/graph?c...smoothing=3

De todos modos, como decía al principio, no es un “estudio” serio pero si puede acercarnos algunas tendencias y en la gran mayoría se ven repuntes preocupantes.

Incluyendo hasta el 2008: homeopatía y acupuntura en libros en español (ambas con minúsulas para incluir el mayor número de resultados):

http://ngrams.googlelabs.com/graph?c...smoothing=3

En fin, yo ya estoy enganchado a esta herramienta y ya le iré pillando el tranquillo para otras cosas jajaja 😀

Un saludo.

StonetStonet

¡Cómo mola!
A meter palabrejas como Cuántica, Einstein, Física, Química… y cambiando radicalmente de tema: milenarismo, apocalipsis, fin del mundo,…

offler

Compartiendo punto de vista quisiera también indicar un par de cosas :

1) Cuando buscas homeopatía supongo que salen publicaciones tanto a favor como en contra. No se debería meter todo en el mismo saco y afortunaamente creo que también ahora hay más gente que sabe lo que es la homeopatía y lucha contra ese fraude.

2) Probablemente hoy en día es mucho más fácil que cualquiera edite un libro, con lo que es más fácil que haya aumentado el número de publicaciones sobre cualquier tema. Habría que ver el crecimiento respecto al total de publicaciones.

Vamos, que a mi me gustaría creer que no es que seamos una sociedad cada vez más inculta, sino que estamos en una sociedad más libre.

Si buscas Ciencia ( http://ngrams.googlelabs.com/graph?c...smoothing=3 ) el crecimiento es continuo.

Si buscas agnosticismo ( http://ngrams.googlelabs.com/graph?c...smoothing=3 ) también estamos en buenos momentos.

Finalmente también la búsqueda de pseudociencias ( http://ngrams.googlelabs.com/graph?c...smoothing=3 ) tiene un crecimiento importante, y entiendo que ese término sólo lo utilizamos los detractores

DavidmhDavidmh

Es cierto que la herramienta no discrimina entre publicaciones a favor y en contra, pero si hay reacciones en contra es porque hay un despunte a favor. Hoy en día casi nadie habla de la peligrosidad de tratar a la gente con sangrados, por la sencilla razón de que casi no se hacen. Si se habla de homeopatía es porque, efectivamente, está entre lo que se respira.

Además, recordemos que los datos son porcentuales a los libros publicados.

Irreductible

Muy buena apreciación.

O visto de otro modo, aunque la herramienta no distingue entre citas a favor o en contra, sí que parece ser un buen indicativo de lo que en twitter se llamaría “trending topic” :)

tristantristan

En las estadisticas sobre la palabra “tarot” se pueden haber colado libros en los que se hable de un juego de cartas muy divertido del mismo nombre que la “ciencia” adivinatoria.. y se llama igual porque se juega con las mismas cartas, bueno de hecho es que la baraja (de 52 cartas + 13 arcanos) originalmente era para el juego …

pasabaporaqui

Hola,

Magnífica la herramienta, es adictiva. Para las asignaturas relacionadas con la Historia viene genial. Gracias por el descubrimiento.

Añado algunas cautelas que he visto mientras la utilizaba:

1) Los libros que se buscan son los que están escaneados, por lo tanto, puede haber un sesgo en la selección. Para los modernos puede ser menor, pero en los casos antiguos pueden haber sido escaneados precisamente porque hablan de algo que nos importa ahora, y no porque la medida represente de forma fiable el uso cuantitativo de la palabra en aquel momento (ej. buscad por “Quijote”, o “especie” o “Física”)

2) Las palabras no tienen significados estáticos, van cambiando sus connotaciones a lo largo del tiempo. Que utilizasen un mismo conjunto de caracteres en un momento dado no significa que el término se use en los mismo contextos que hoy, ni que se use para describir los mismos hechos , procesos, etc.

Rober

Hay algo que no me cuadra. Buscando microsoft como hizo Carlos, pero en español, sale un pico en 1899 y otro en 1901 a los que no le encuentro ninguna explicación. Sospecho que hay algunos libros mal datados (¿se dice así?)

r_daneelr_daneel

La herramienta es curiosa y divertida pero los datos están muy sesgados coma para sacar prácticamente ninguna conclusión. Desconozco que parte de los libros nuevos entran en el directorio pero supongo no serán todos y asumir que son una muestra significativa es mucho asumir. Todo se basa en el material digitalizo y disponible en google books, sujeto a acuerdos con los propietarios del copyright. Por ejemplo, las comparativas entre los textos en inglés y en castellano son engañosas sin tener en cuenta con que editoriales se tiene el acuerdo en cada idioma. Y lo mismo sirve para los fondos de libros no sujetos a copyright.
Pero incluso si estuviéramos analizando los datos de todos los libros publicados, tampoco tengo claro que estaríamos observando. Al fin y al cabo un único libro que hable sobre una temática concreta con una gran repercusión (ya sea por que haya sido muy leido o muy citado) cuenta igual que un manual de autoayuda del que solo se haya vendido 15 unidades.

carguacargua

Haciendo honor a la ciencia es un comentario muy acertado, aunque es muy seguro que poco a poco vaya mejorando esta herramienta y también tengamos mas claro las ventajas y limitaciones que tenga, es cuestión de darle un poco de tiempo.

carguacargua

Ha logrado alguien encontrar alguna publicación que se acerque al 1% o por lo menos a 0.1 %?
Ya he probado biblia, Quijote, Hamlet y mañana seguiré.

GaloGalo

También hay que tener en cuenta que, por una parte la cantidad de publicaciones que se han hecho desde mediados del siglo xx han sido mucho mayores que con anterioridad y por otra parte que seguramente google tiene digitalizados más libros de esta época que del siglo xix. Un saludo

Irreductible

Afortunadamente, el volumen de libros en los que aparece la palabra ciencia es mucho mayor… es evidente. Pero parece que no has visto que lo que indicas ya está representado en porcentaje en las gráficas que google te da… A la izquierda.

De todos modos, fíjate que lo que indicas no es necesario ya que si observas bien, en cada gráfica ya aparece el número porcentual que aparece cada termino. Es evidente (y como es normal) que el volumen de libros en los que aparece la palabra ciencia sea muchísmo mayor que la palabra “acupuntura”.

Fijándote en las gráficas hubieras visto que, a la izquierda ya aparece el porcentaje entre ellas:

Ciencia: 0,007% (llegando a cotas incluso del 0,01%)
Tarot: 0,00002%
Acupuntura: 0,00002%

En las gráficas del artículo (el porcentaje de la izquierda) ya va implícita la diferencia a la que te refieres.

¿De veras necesitas, como dices: “poner todos los términos en una misma imagen”?

Te pondré un ejemplo en un idioma más comprensible:
Si ves una gráfica en la que se indica: 0,01 helados y otra diferente en la que se indica: 0,00004 chicles… ¿De verdad necesitas una gráfica comparativa para saber que el volumen es sustancialmente diferente?

Este “experimento” como digo en el post, no tiene valor estadístico puesto que no es riguroso, tan sólo nos puede dar una idea de la tendencia en los últimos años de algunos conceptos pseudocientíficos.

Más allá de esas tendencias, se pueden sacar muchas conclusiones, pero pocas tendrían validez salvo la ya reseñada de ver como aumenta ese “trending topic” de pseudociencias en los últimos años.

Un saludo.

angelitoMagno

Claro, ya había visto el eje Y. Si, me había fijado. Lo que digo es que es falaz establecer comparaciones entre resultados de búsquedas cuando dichos valores varían.

“no tiene valor estadístico puesto que no es riguroso” Pues eso es lo que digo. Que la comparación que haces no tiene rigor. Si esto es un blog de ciencia, que menos que pedir rigor.

Irreductible

Vamos a ver Angel si llegamos a posiciones en común, porque esto no es Menéame y no tengo costumbre de discutir hasta el infinito con alguien con el que estoy de acuerdo.

Veamos que es lo que quieres decir.

– No es un método riguroso… De acuerdo, ya lo digo yo en el post, lo aviso y lo dices tú también. Hasta aquí, no veo problema…. No es un método riguroso porque, a falta de que google mejore su herramienta y amplie el catálogo de libros, pues evidentemente la herramienta que nos ofrece no está para estudios rigurosos.

– Quieres poner en un gráfico conjunto la búsqueda de muchas palabras para llegar a la conclusión de qué?… de que la palabra “ciencia” aparece muchas veces más que la palabra “tarot”, por ejemplo?… pues claro. ¿a dónde vamos con eso?… llegamos a alguna conclusión en la que no estemos de acuerdo?… Es evidente.

– El título está bastante claro, no entiendo porque buscas falacias: Experimentos y tendencias…. Esta claro (y estaremos de acuerdo) en que la herramienta de google no da para estudios minuciosos pero bueno, puede indicar algunas tendencias bastante curiosas.

En serio, es que no sé por qué discutir… hablas de que esto es un blog de ciencia… ya… y qué?? y también es un blog de muchas otras cosas, entre ellas un blog que escribimos varios amigos y es un blog personal…

Fíjate que hay muchas categorías y este entrada está catalogada en las categorias de “divulgación” y “curiosidades”… Pues eso: Divulgo y doy a conocer la nueva herramienta de google y animo a hacer vosotros mismos vuestros experimentos… y por otro lado remarco algunas curiosidades con esa herramienta.

No le des tantas vueltas… Esto un blog de muchas cosas… ¿O también te vas a quejar de rigor cuando sacamos una viñeta de humor o un twitter gracioso? Joer… si tenemos hasta una categoría de música?…

En serio, ya estoy muy viejo para hablar por hablar… lo dejo para otros “foros” más naranjas y otra gente más activa… yo ya no continuo el debate, sobre todo, porque si lo piensas bien, no hay debate…

Malaprensa

Es fascinante, sí. Y puede darnos mucho juego.

Creo que varias de las críticas o dudas se responden en la propia página donde explican cómo lo han hecho. Los porcentajes resuelven el problema de “ahora se publica más que antes”. Las muestras en los años más recientes son aleatorias, dentro de lo escaneado.

Si que me parecen más pertinentes las dudas sobre qué materiales se escanean de publicaciones antiguas (los que están en bibliotecas) y qué se escanea ahora (“Todo” lo que se publica). Esto, combinado con la reducción de costes, puede hacer que efectivamente, como decía Offler, hoy haya muchos más libros escaneados que traten temas digamos “frívolos” o irrelevantes, que los que nos han llegado del siglo xix, por un doble sesgo de menor publicación (que no necesariamente significa menor popularidad) y menor archivo como valiosos en bibliotecas (aunque entre las bibliotecas que han llegado a acuerdos con Google creo que hay algunas de esas de referencia que prácticamente lo tienen “todo”).

AlvaroAlvaro

Hola! Felicidades por el artículo, bastante interesante.

Yo, como todos, pues claro me he puesto a jugar un poquito con esta nueva herramienta. Y me estoy volviendo un poco loco por esto:

http://ngrams.googlelabs.com/graph?c...smoothing=3

según la página, la expresión reggae tiene referencia en libros escritos en español al final del siglo XIX…..a cuadros…..la etimología de la palabra según wikipedia indica que, claro esta, la palabra nació a finales de los años sesenta

http://en.wikipedia.org/wiki/Reggae

una pena que no ponga referencia a los libros en los que aparece la expresión, porque no estaría de más conocer al visionario que intuyó el reggae antes que nadie 😀

Saludos!

AngelAngel

Perdón, entendí que indicaba el porcentaje de libros y no de palabras. Ahora si que me cuadra.

Saludos.

SantiSanti

Si la razón de la subida de las pseudociencias fuese simplemente un mayor número de publicaciones sobre todos los temas, también subirían los libros sobre ciencia y sobre Dios.

SlayerSlayer

La herramienta en cuestión no será muy fina, pero el resultado que he obtenido buscando “reflexology” (y comparándolo con “astrology”) me ha servido para taparle la boca (un poco, sólo un poquito) a cierta elementa que me venía restregando el “carácter milenario” de esta magufada.

Samuel Franco Domínguez

Mola!

Busca “Gripe”, creo que los libros van justo después de las epidemias. Interesante, ¿no?

Una búsqueda curiosa es “TIC”, también es un trastorno neurológico, pero en sus siglas de tecnología de la información y comunicación surge en un punto muy concreto y explota rápidamente.

Genial. Lo estoy usando para buscar cosas de mi campo y , aparte de que se publique más en general de temas especializados veo muchas curvas temporales interesantes.

José Miguel SantosJosé Miguel Santos

Ojo, porque los términos que se están buscando (homeopatía, acupuntura…) son precisamente términos de moda en la actualidad. Prueben a buscar «parapsicología», «OVNI» o «telequinesia», términos todos que están en declive. Un análisis serio no debe estar influenciado por los modismos, eso sesga las conclusiones.

TeodoroTeodoro

Desde luego, cuanto más leo este blog….más estoy descubriendo. Empiezas a buscar…y no lo dejas nunca!

5 Trackbacks

Información Bitacoras.com…

Valora en Bitacoras.com: De los “Laboratorios Google” acaba de salir una nueva herramienta que me tiene enganchado desde hace unos días. Se llama Books Ngram Viewer y te da la oportunidad de analizar datos extraídos de búsquedas en libros de una mane…..

Deja un comentario

Tu email nunca será mostrado o compartido. No olvides rellenar los campos obligatorios.

Obligatorio
Obligatorio

Puedes usar las siguientes etiquetas y atributos HTML: <a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <strike> <strong>