El “efecto Google” y la internet como el disco duro de nuestro cerebro

Se llama ”efecto Google” al uso de los buscadores, como Google, como una especie de ”memoria externa” para nuestro cerebro. Un estudio dirigido por la psicóloga Betsy Sparrow (Universidad de Columbia, Nueva York), publicado hoy en la revista Science, analiza este efecto con detalle y sugiere que hemos perdido memoria para retener datos, pero hemos ganado en habilidad para buscarlos en internet. La mayoría de nosotros, cuando no sabe la respuesta a una pregunta, automáticamente piensa en recurrir al ordenador o al dispositivo móvil más próximo para buscar dicha información, y la mayoría de las veces acaba siendo encontrada. Los experimentos de la Dr.a Sparrow muestran que recordamos peor las cosas que sabemos que son fáciles de buscar en internet que las cosas que nos enseñan y que no están disponibles en internet. Los experimentos también apuntan a que la gente prefiere recordar dónde puede encontrar cierto tipo de información a recordar dicha información directamente. Si este tipo de estudios tiene razón, el “efecto Google” nos dice que la internet se ha convertido en el “disco duro” para nuestro cerebro, que cada día actúa más como una memoria RAM volátil. Nos lo ha contado John Bohannon, “Psychology: Searching for the Google Effect on People’s Memory,” News & Analysis, Science 333: 277, 15 July 2011, haciéndose eco del artículo técnico de Betsy Sparrow, Jenny Liu, Daniel M. Wegner, “Google Effects on Memory: Cognitive Consequences of Having Information at Our Fingertips,” Science, Published O line 14 July 2011. Merece la pena escuchar un podcast con una entrevista a Betsy Sparrow.

Betsy Sparrow ha diseñado cuatro experimentos para explorar como la internet puede haber cambiado nuestra forma de manejar la información. Los resultados apoyan la creencia de que la gente está utilizando la internet como un banco de memoria personal: el llamado “efecto Google.” Lo que ha sorprendido a Sparrow es la gran capacidad de los participantes en el estudio para recordar dónde encontrar la información que han almacenado en el ordenador sin memorizar. Se realizaron dos experimentos en la Universidad de Harvard y dos experimentos en la Universidad de Columbia. En los experimentos de Harvard se observó que los participantes ante una pregunta difícil como “¿el ojo de un avestruz es más grande que su cerebro?” rápidamente pensaban en recurrir a internet para obtener la respuesta. Para estudiar las respuestas, Sparrow y sus colegas han empleado un test de Stroop: tras las preguntas aparecen pantalla varias palabras en diferentes colores y se les pregunta por el color de una palabra concreta. Los estudios previos indican que cuando la gente ya está pensando en alguna cosa relacionada con dichas palabras, su respuesta sobre el color de la palabra es más lenta (mayor tiempo de reacción) que cuando no están pensando en dichas palabras. Los experimentos de Sparrow confirmaron que las palabras relacionadas con búsquedas en internet (como Google o Yahoo) provocaron una respuesta más lenta a las preguntas difíciles, efecto que no se observó para otra serie de preguntas que eran fáciles.

Más en detalle, los dos primeros experimentos fueron los siguientes. En el primer experimento participaron 46 estudiantes universitarios (28 mujeres y 18 hombres) de la Universidad de Harvard. Los participantes contestaron 16 preguntas fáciles y 16 preguntas difíciles. Preguntas fáciles como “¿Herman Melville escribió “Moby Dick”?,” “¿John F. Kennedy fue asesinado en 1994?” o “¿Es el oxígeno un metal?” Y preguntas difíciles como “¿Es mayor la superficie de Dinamarca que la de Costa Rica?,” “¿Nacen más bebés en febrero que en cualquier otro mes?” o “¿El número atómico del criptón es 26?” En el test de Stroop modificado se ofreció a los participantes una serie de 16 términos en diferentes colores relacionados con los buscadores en internet (Google, Yahoo, buscador, internet, ordenador, …) y otra serie de 16 términos sin relación alguna con ellos (Nike, Coca Cola, Yoplait, mesa, teléfono, …). El 98% de la preguntas fáciles fueron contestadas por los participantes, pero solo el 47% de las difíciles. Se observó con el test de Stroop modificado una correlación clara entre las preguntas difíciles y los términos relacionados con los buscadores de internet. Los participantes estaban pensando en buscar las respuestas en internet.

En el segundo experimento participaron 60 estudiantes (37 mujeres y 23 hombres) de la Universidad de Harvard que tuvieron que leer y luego contestar un conjunto de 40 preguntas utilizando un ordenador y un buscador. Durante el experimento, en algunas preguntas se les pedía a los participantes que teclear la respuesta en el ordenador y que luego borraran la respuesta tecleada, tratando de recordarla de memoria. En otras preguntas se les pedía que tras teclear la respuesta le dieran a un botón de salvar (guardar) y no se les pidió de forma explícita que recordaran dicha respuesta de memoria. Más tarde tenían que escribir en papel, a mano, las respuestas (sin consultar el ordenador). A los participantes se les daba un punto por respuesta bien acertado y medio punto si sólo eran capaces de recordar parte de la respuesta. Borrar lo escrito tuvo poca influencia en los resultados porque la mayoría de los participantes sabía que era un test de memoria y trató de recordar sus respuestas. Sin embargo, las preguntas que fueron salvadas en disco fueron peor recordadas por los participantes que las preguntas para las que se les pidió de forma explícita que las recordaran. Según Sparrow es como si los cerebros de los que no salvaron las preguntas hubieran hecho una copia de seguridad de emergencia.

En otros dos experimentos con 62 estudiantes de la Universidad de Columbia, Sparrow y sus colegas pusieron a prueba si la memorización de esta “copia de seguridad” tiene un costo. Se repitieron los experimentos pero permitiendo a los estudiantes tomar notas en papel o salvar sus respuestas en el ordenador en ciertos directorios. Los estudiantes a los que se les había dicho que sus notas se habían borrado recordaban mejor la información que los que creían que había sido salvada (en notas en papel o en el ordenador). Lo más sorprendente es que los que salvaron dicha información en directorios de disco recordaban muy bien en qué directorio la habían guardado. Según  Sparrow, el experimento indica que los participantes eran más hábiles recordando dónde han guardado la información que la información guardada en sí.

Este fue el resultado del tercer experimento participaron 28 estudiantes (20 mujeres y 8 hombres) de la Universidad de Columbia que teclearon en Medilab 30 frases diferentes; para cada frase, de forma aleatoria, el ordenador informaba al participante de que “Su frase ha sido grabada,” “Su frase ha sido grabada en la carpeta DATA” (había 6 nombres de carpetas posibles) y “Su frase ha sido borrada.” Más tarde se les sometió a un test de reconocimiento de las frases tecleadas con tres preguntas para cada una de las 30 frases, la mitad de ellas con pequeños cambios : (1) ¿esta frase es exactamente igual que la que has leído?, (2) ¿esta frase es la original que guardaste o borraste? y (3) ¿en qué carpeta de disco guardaste esta frase, si lo hiciste? El orden de estas preguntas era aleatorio. El cuarto experimento, con 44 estudiantes (16 mujeres y 18 hombres), es de corte similar pero con notas escritas en papel.

El estudio es “convincente,” aunque obviamente no es la última palabra sobre este tema. “No hay duda de que nuestras estrategias en el aprendizaje están cambiando”, dice Roddy Roediger, psicólogo de la Universidad de Washington en St. Louis, Missouri. “¿Por qué recordar algo si yo sé que puedo buscarlo de nuevo?” Roediger sugiere que este estudio está relacionado con el misterioso efecto Flynn, el aumento gradual en las puntuaciones de CI observado durante el siglo pasado. ¿Nunca has oído hablar de este efecto? No te preocupes, Roediger te recuerda que “Hay una entrada estupenda en la Wikipedia sobre este efecto.”

Un vídeo de 10 minutos que no puedes dejar de ver

Quizás no lo sabes pero Google utiliza 57 parámetros para adaptar tu búsqueda a tí, lo que hace que el resultado que recibes sea muy diferente al que obtendría cualquiera de tus amigos. ¡Piénsalo! Todas las compañías web lo hacen. Si quieres/necesitas subtítulos para esta charla puedes disfrutarla siguiendo este enlace TED.

¿Aguantarías 5 meses sin conexión a internet?

Pocos investigadores pueden aguantar un día sin mirar su correo electrónico. Imagina que el gobierno te cortara tu conexión de Internet durante 5 meses, impidiéndote enviar mensajes de texto y realizar llamadas internacionales. Esto es lo que le ha pasado (y todavía le sigue pasando) a los investigadores y estudiantes universitarios en la Región Autónoma Uigur de Xinjiang. El gobierno chino ha cortado la conexión de internet, aunque no el teléfono a nivel nacional, desde el 6 de julio, debido a las protestas contra el gobierno de los uigures separatistas. Hay varios proyectos de investigación en colaboración con instituciones norteamericanas cuya ejecución peligra, así como el desarrollo de la propia región, según Chen Yiyu, presidente de la National Natural Science Foundation of China (NSFC). Esperemos que la situación mejore pronto. Nos lo cuenta Richard Stone, “Internet Blockade in Xinjiang Puts A Strain on Science,” News of the Week, Science 326: 1471, 11 December 2009. Si fueras científico en dicha región, ¿cómo te buscarías la vida para evitar el bloqueo?

Y el 29 de octubre de 1969 nació Internet…

Dibujo20091028_L_KLEINROCK_ARPANET_logbook_page_recording_first_computer-to-computer_transmission

Vinton G. Cerf, actualmente vicepresidente de Google y entonces uno de los programadores jefe del proyecto, nos cuenta hoy en Nature como nació la Internet cuando Charley Kline, un estudiante del Network Measurement Center de la Universidad de California, Los Angeles (UCLA), envió el primer mensaje desde un ordenador a otro utilizando la red ARPANET. El otro ordenador se encontraba a 500 km. en el Stanford Research Institute. Kline quería enviar la palabra “login” pero sólo logró teclear la “l” y la “o” momento en que ambas máquinas se colgaron. La red ARPANET es el gérmen de lo que hoy en día es la Internet. Un artículo muy emotivo que podréis leer en Vinton G. Cerf, “The day the Internet age began,” Nature 461:1202-1203, 29 October 2009.

A mitad de los 1960, Robert Taylor, director del Information Processing Techniques Office de la Advanced Research Projects Agency (entonces llamada ARPA, ahora llamada DARPA)  del departamento de Defensa de los EEUU lanzó  como proyecto experimental  el desarrollo de una red de comunicaciones basada en conmutación de paquetes. El proyecto fue liderado por Lawrence Roberts. El 2 de septiembre de 1969, el primer nodo de esta red fue instalado en el Network Measurement Center. El 29 de octubre Kline realizó su primer test del funcionamiento de esta red, que falló estrepitosamente. En diciembre de 1969 ya había 4 nodos de la ARPANET. Vinton G. Cerf era entonces uno de los programadores jefe que desarrollaron el software de comunicaciones para la Internet, programas para el acceso a ordenadores remotos, transferencia de ficheros entre ellos, correo electrónico, etc.

Robert Kahn de la compañía Bolt Beranek and Newman (BBN) encargada de diseñar los protocolos de comunicación (interfaces de procesado de mensajes les llamaban entonces) fue el encargado de la primera demostración pública de la ARPANET en la primera International Conference on Computer Communication, en Washington DC, octubre de 1972. Los programadores del Xerox Palo Alto Research Center decidieron desarrollar una red local de comuncaciones (LAN) inventando la Ethernet.

Kahn y Cerf colaboraron juntos en el desarrollo de un protocolo de control de la transmisión (transmission control protocol o TCP) y la arquitectura básica de la Internet. En septiembre de 1973 presentaron un artículo que se publicó en 1974 (V. Cerf, R. Kahn, “A Protocol for Packet Network Interconnection,”, IEEE Trans. on Communications 22: 637-648, May 1974, gratis aquí) que describía cómo interconectar un número arbitrariamente grande de redes de conmutación de paquetes y ordenadores conectados a ellas. Con financiación de la ARPA el nuevo protocolo empezó a ser implementado en 1975. En noviembre de 1977 se hizo un test en una red con tres concentradores (gateway). En 1978 estos protocolos y otros para e-mail, FTP y acceso remoto a terminales ya estaban completamente operativos en una primitiva Internet. El protocolo actualmente en uso, TCP/IP, fue implementado por primera vez en 1982.

En 1983 la red ARPANET fue dividida en dos redes, una militar MILNET, y otra civil (universidades, ONGs, centros de investigación y centros del gobierno). En 1986 se lanzó la red NSFNET de la National Science Foundation y en 1990 ARPANET oficialmente “murió.” Todos sus nodos y concentradores se incluyeron en la NSFNET. En 1995, NSFNET fue retirada ya que la Internet comercial ofrecía un servicio similar para la comunidad académica norteamericana a mucho menor coste. La Internet actual se “comió” a las redes que fueron sus “padres.”

Ni ARPANET ni Internet se desarrollaron para un propósito en particular. Eran redes abiertas a todo lo que se quisiera colgar en elllas. La filosofía de “la libertad ante todo” ha sido la clave del éxito de Internet.

PS (29 octubre 2009): El artículo de Miquel Barceló, “Internet, un proyecto militar fracasado. La conexión que supuso el inicio de la Red se logró, hoy hace 40 años, entre dos instituciones académicas de Estados Unidos,” El País, 29 otubre 2009, es el complemento ideal a lectura de esta entrada.

Análisis del tráfico en eMule y eDonkey (o los “hechos” sobre las descargas P2P)

En este blog nos tenemos que hacer eco de las noticias “científico-técnicas” sobre la eMula, dado que parafraseamos su nombre en nuestro título “(th)E mule”. Un poco de historia muy conocida. Un hacker llamado Merkur pensó en 2002 que podía mejorar el cliente P2P llamado eDonkey y creó el proyecto eMule, que popularizó el protocolo eDonkey (sobre todo en Europa). Pero vayamos al grano, ¿cómo es el tráfico actual en eMule? El artículo de Frederic Aidouni, Matthieu Latapy, Clemence Magnien, “Ten weeks in the life of an eDonkey server,” ArXiv preprint, 19 Sep 2008 , lo estudia con cierto detalle (y no es fácil capturar estadísticas del protocolo eDonkey sin interferir en el tráfico).

Recapitulemos. Han estudiado de forma continua durante casi 10 semanas el tráfico en los protocolos UDP y TCP/IP de un servidor eDonkey “importante” observando la “friolera” de 8 867 052 380 peticiones, sí, casi 9 mil millones de mensajes, involucrando 89 884 526 diferentes direcciones IP, sí, casi 90 millones de usuarios, y 275 461 212 diferentes campos de identificación de ficheros (fileID), sí, más de 275 millones de ficheros “distintos”. ¡Increíble!

El trabajo de espionaje realizado … ¿Te habrán espiado? ¿Estarás tú en los datos que han recabado? No te preocupes, los autores han utilizado un sistema de anonimato tanto para los clientes (clientID), ficheros (fileID), cadenas de búsqueda (search strings), nombres de fichero (filenames) y tamaños de fichero (filesizes). Según los autores lo han hecho bien: “a very strong anonymisation scheme.” Creámosles, no nos queda otro remedio. En el artículo detallan bastante la técnica y parece “razonablemente” fiable (pero yo no soy experto en “desanomización”).

Vayamos a los resultados presentados. El número de clientes que “ofrece” partes de un fichero concreto sigue una ley de potencias (power law) con una cola “compleja” que sugiere que es la suma de varias leyes de potencia independientes. Los autores sugieren que es debido a que hay diferentes tipos de ficheros que siguen leyes de potencia con parámetros diferentes. Esta alta heterogeneidad también ha sido observada en cuanto al número de ficheros diferentes que un cliente “ofrece” a los demás. Pocos clientes ofrecen miles de ficheros y cientos de clientes ofrecen sólo algunos pocos. Sin embargo, en este caso la distribución observada se parece menos a una ley de potencia.

Una de las cosas más curiosas para mí, no por inesperada sino por lo contrario, porque era de esperar, es la gráfica de la izquierda en la que aparece el número de ficheros “compartidos” de un tamaño determinado. Hay un pico muy claro alrededor del tamaño de un CD (unos 700 MB), el tamaño típico de una película ripeada en un .avi o en .mpg. También sus subarmónicos, su mitad, 350 MB, su tercera parte, 230 MB, y su cuarta parte 175 MB. ¿Por qué un pico en 1 GB? Los autores suponen que porque mucha gente divide el tamaño de un DVD (unos 4.7 GB) en partes “redondas” de un 1 GB. Yo más bien soy de la opinión que está relacionado con el hecho de que las pelis de “mejor calidad,” sobre todo las ripeadas en formato MPEG, suelen ocupar algo más de 700 MB, rondando 1 GB (algo por encima).

Desafortunadamente no ofrecen más análisis de sus resultados. En mi opinión, el trabajo de Aidouni et al. es un primer paso en el estudio y análisis de todos los datos que han recabado. Estoy seguro de que próximamente veremos más artículos en los que dichos autores analizan otros factores de interés en la ingente cantidad de datos que han atesorado. La Mula Francis estará “al loro.”

Como apostilla, para los interesados en detalles técnicos, aunque no lo dicen en el artículo sus autores, el servidor eD2k que han utilizado es el desarrollado por Lugdunum en C, desarrollado por este hacker utilizando ingeniería inversa del protocolo eDonkey (como todo hacker debería hacer). Este protocolo es gratuito pero no es de software abierto (open soft) con objeto de evitar que se creen servidores falsos (fake) por parte de los “garantes” de la legalidad que deseen “penalizar” la red P2P bajo eDonkey (generándole penas a los humildes “peers”).

Más apostillas, el software de espía P2P que han desarrollado los autores del artículo se llama LogP2P.

Postdata: El Blog de Matthieu Latapy falleció recientemente, esperemos que renazca (para los interesados en su página web). Foto de los dos autores que firman en último lugar el artículo.

GOTCHA, CAPTCHA, reCAPTCHA: Soy una máquina, ponme un test de Turing y lo superaré (o mis programadodres se encargan de lograrlo)

El test de Turing, que según nuestro amigo Carlos de la Singularidad Desnuda “es uno de los más clásicos intentos de caracterizar la inteligencia humana y determinar si un sistema artificial puede considerarse “inteligente”,” tiene su expresión práctica más conocida en los CAPTCHAS (Completely Automated Public Turing test to tell Computers and Humans Apart, Prueba de Turing pública y automática para diferenciar a máquinas y humanos), es decir, cadenas alfanuméricas distorsionadas que deben ser leídas, entendidas y tecleadas como clave de acceso a ciertos sitios web. Casi todos hemos tenido que superar un CAPTCHA alguna que otra vez. La idea no es muy antigua, de Luis von Ahn, Manuel Blum, Nicholas J. Hopper, and John Langford, “The CAPTCHA Web Page,” 2000); os recomiendo a los interesados el artículo técnico de Luis von Ahn et al. “CAPTCHA: Using Hard AI Problems for Security,” EUROCRYPT 2003, Lecture Notes in Computer Science, 2656: 294-311, 2003 .

Igual que con los virus y los antivirus (es imposible programar un antivirus para eliminar un virus que aún no ha sido desarrollado, con lo que los hackers que saben cómo funcionan los antivirus actuales pueden programar virus “inicialmente” indetectables) los captchas (tests de Turing) han de ir mejorando constantemente ya que los hackers pueden desarrollar algoritmos para superarlos. “Echa” la ley, “echa” la trampa.

¿Siempre habrá cosas (tareas) que podrán hacer los humanos pero no las máquinas (computadores)? ¿Siempre habrá humanos capaces de lograr que las máquinas resuelvan tareas que “se suponía” que las máquinas no podían resolver?

Ya hay software capaz de superar muchos de los CAPTCHAs que encontramos “todos los días” en Internet, por ello, los investigadores que inventaron los CAPTCHAa han tenido que inventar los reCAPTCHAs (“hablando de cojo…, recojo…”). No es noticia, ni debería serlo, pero la noticia es que lo han publicado en Science (os recuerdo, índice de impacto en 2006 de 30.028): Luis von Ahn, Benjamin Maurer, Colin McMillen, David Abraham, and Manuel Blum, “reCAPTCHA: Human-Based Character Recognition via Web Security Measures,” Science, Vol. 321. no. 5895, pp. 1465-1468, 12 September 2008.

Bueno, seamos sinceros, en realidad el artículo publicado en Science tiene una utilidad práctica más allá de la seguridad informática (en otro caso no lo hubieran publicado en Science, tiene que haber una “noticia” detrás para que sea publicado).

¿Por qué no usar a las personas que resuelven los CAPTCHAs como “computadoras humanas” para resolver problemas prácticos?

Sí, has leído bien, por qué no usar a las personas que resuelven los acertijos de los CAPTCHAs para que no sólo tengan acceso a un recurso sino que además resuelvan un problema práctico (aunque sin ser conscientes de ello).

¿Qué problema pueden resolver? Obviamente, el mismo que un OCR (sistema óptico de reconocimiento de caracteres). Un humano actúa como un OCR con una alta precisión (más del 99% de aciertos según los autores del artículo).

¿Y tiene que saberlo la persona que “es utilizada” como OCR? No, ¿o sí? En cualquier caso los autores han “engañado” a unos “cuantos humanos” gracias a unos 40.000 sitios web que utilizan los “reCAPTCHAs” y han sido capaces de usarlos como “OCR humano” para transcribir unos 440 millones de palabras. ¿Has sido tú uno de ellos? Quizás yo mismo lo haya sido.

¿Es ético/moral que nos utilicen? ¡Para qué otras cosas nos utilizarán en Internet!

Según los investigadores, todos los días se resuelven unos 100 millones de CAPTCHAs en la web. Proyectos de digitalización de libros, como el Google Books Project, se pueden aprovechar de este trabajo “gratis” utilizando los “reCAPTCHA”.

Por supuesto, ahora que lo sé (igual que tú que quizás te acabas de enterar), engañaré a los reCAPTCHAs de vez en cuando, no quiero que me utilicen. ¡Faltaría más!

Bueno, lo siento, los investigadores lo saben, así que utilizan un sistema de votación: la misma palabra distorsionada es propuesta a varios humanos y sólo cuando la mayoría dan una misma respuesta ésta es considerada válida. ¡No son listos los autores! ¡Qué cabr….!

Permitidme la frase en inglés con la que acaba el artículo en Science: “We hope that reCAPTCHA continues to have a positive impact on modern society by helping to digitize human knowledge.”

¡No quiero ser un “mono” en manos de estas “hermanitas de la caridad”!

¿Y tú?