La arbitrariedad del índice h a la hora de ordenar la producción de investigadores

Dibujo20130228 ranking several scientists using their generalized q-factor index h

La arbitrariedad del índice h (propuesto por Hirsch en 2005) se hace evidente cuando se cambia un poco su definición y, en lugar de tomar el valor h como el número de publicaciones que han recibido al menos h citas cada una, se toma h como el número de publicaciones que han recibido al menos q*h citas cada una, donde q es distinto de la unidad; la costumbre es tomar q = tan(α), con q=1 para α=45 grados. El cambio parece muy pequeño, pero la estabilidad del índice h ante este “pequeño” cambio es pésima. El cambio en el orden (ranking) de una serie de investigadores al realizar un pequeño cambio en el valor de q es mucho más grande de lo que uno puede pensar en principio y hace dudar sobre la utilidad del índice h (con q=1) a la hora de ordenar investigadores por su producción. La figura muestra el ránking de 26 físicos en función del ángulo α entre 5 y 85 grados (obviamente, los primeros y últimos puestos cambian poco, pero la región intermedia, donde el índice h debe mostrar su utilidad práctica, es bastante “caótica”). Este resultado es bien conocido por los expertos en bibliometría, pero ignorado por el resto del mundo (todos los que usan el índice h a la ligera sin estudiar un “poquito” de bibliometría). Nos lo recuerda Michael Schreiber, “A Case Study of the Arbitrariness of the h-Index and the Highly-Cited-Publications Indicator,” Journal of Informetrics 7: 379-387, 2013 [arXiv:1302.6582].

Evaluación por comités de expertos versus índices bibliométricos (o paseando un rato por PLoS ONE)

Todo el mundo sabe que un comité de expertos evalúa mejor la calidad de un artículo, investigador o grupo de investigación que un conjunto extenso de índices bibliométricos. Cualquier estudio mínimamente serio lo observa experimentalmente. Lyz Allen et al. evaluaron casi 700 artículos publicados en 2005 por comités de expertos y compararon los resultados con los indicados por índices bibliométricos 3 años más tarde. Cuando el índice bibliométrico dice que el artículo es muy bueno, los expertos ya lo habían dicho. Pero los expertos encontraron joyas que pasarían desapercibidas para los índices bibliométricos (porque no fueron adecuadamente citadas). La opinión de los expertos, como era de esperar, supera con creces a los índices bibliométricos, aunque estos son fáciles de calcular para los funcionarios y no funcionan tan mal. El estudio es Liz Allen, Ceri Jones, Kevin Dolby, David Lynn, Mark Walport, “Looking for Landmarks: The Role of Expert Review and Bibliometric Analysis in Evaluating Scientific Publication Outputs,” PLoS ONE 4: e5910, June 18, 2009.

Lyz Allen et al. tomaron 687 artículos publicados en 2005 y le pidieron a dos expertos, por cada artículo, elegidos entre 1000, que los calificaran de 1 a 4. El valor 4 representa una gran contribución, solo 6 de los 687 recibieron este valor; el valor 3 representa contribuciones interesantes, solo 62 (9%) recibieron este valor; el valor 2 artículos solamente útiles, solo 229, y el 1 para artículos del montón, el resto. Tras 3 años la correlación entre la opinión de los expertos y los índices bibliométricos es muy fuerte. Salvo para unos pocos artículos, artículos calificados de forma alta por los expertos pero que no han recibido un número suficiente de citas. Quizás 3 años es poco tiempo y las recibirán en un plazo más largo. Quizás nunca las recibirán. Para un funcionario, los expertos también se equivocan. Para un experto, los índices bibliométricos no pueden ser la única forma de evaluar.

Y es que ya lo decía Einstein “no todo lo que cuenta es contable, y no todo lo que es contable cuenta.” El uso de índices bibliométricos puede ser útil pero no puede ser lo único que se utilice. Nos lo han contado tantas y tantas veces que raya el ridículo. Y es que hablar de estos temas sirve para escribir artículos a quienes no son expertos en bibliometría y para escribir entradas en blogs de ciencia como éste (y no porque no haya otras cosas que contar). Os extraigo una figura del artículo de Lutz Bornmann, Hans-Dieter Daniel, “The state of h index research. Is the h index the ideal way to measure research performance?,” EMBO reports 10: 2–6, 2009 .

Dibujo20090618_h_index_and_citations_curve

Dibujo20090618_h_e_d_indexes_graphical_definitionlObserva la figura A. La curva blanca es el número de citas recibidas por los artículos ordenados por número de citas. El área sombreada en negro mide el índice h al cuadrado. Diferentes autores con el mismo índice h pueden tener diferentes curvas. La figura B muestra uno con el área roja más pequeña pero casi igual área verde. La figura C uno con igual área roja pero menor área verde. Finalmente la D muestra un autor con áreas rojas y verdes nulas. ¿Cuál de estos cuatro investigadores te parece el mejor? El área roja ha sido propuesta como nuevo índice bibliométrico para complementar al índice h y es llamado índice e por (exceso de citas) por C.-T. Zhang del Departamento de Física de la Tianjin University, China, en “The e-Index, Complementing the h-Index for Excess Citations,” PLoS ONE 4: e5429, May 5, 2009. Ya que estamos puestos, no soy experto en bibliometría pero se me antoja introducir un nuevo índice, el índice d (por defecto de citas). ¿Qué es? Obviamente el área verde. Con los índices h, d, y e se tiene una buena idea de cómo es la curva de citas (que tiene forma general de ley de potencias). Estos tres índices diferencian estupendamente entre los 4 autores A,B,C y D, todos con el mismo índice h.

Muchos científicos e investigadores están más preocupados por publicar en revistas internacionales de alto índice de impacto que en sus propios resultados de investigación. La nueva máxima de la ciencia “publica o perece” cada día parece más en contra de la tan cacareada “investigación de calidad.” Los investigadores envían su artículo a una revista de índice de impacto alto (yo envié uno a una de 1.8) y si se los rechazan (a mis coautores y a mí nos lo rechazaron) los envían a revistas de índice de impacto más bajo (nosotros ya lo hemos hecho a una de 0.82), y así sucesivamente hasta lograr el artículo. En este proceso el artículo puede mejorar, pero muchas veces muy poco (como es nuestro caso). No es el objetivo de las revisiones el mejorar los artículos (a veces parece que se han leído otro artículo).

Por cierto, no sé si lo sabéis, pero el índice de impacto depende del número de artículos de la revista citables y citantes. Ambos números no tienen por qué coincidir. El editor principal de una revista puede negociar (y lo hace) con Thomson Reuters qué artículos de su revistas se encuentran en cada categoría. Dentro de una misma editorial hay políticas diferentes al respecto para revistas diferentes. Siempre, se supone, para maximar el índice de impacto. Obviamente, estas negociaciones son muy criticadas por su falta de transparencia, pero así es el impactante mundo del índice de impacto.

Un diablo mal pensado podría afirmar que quizás muchos artículos contienen datos fabricados o fraudulentos con objeto de poder acceder a un mayor impacto. ¿Cuántos científicos falsifican los datos que publican en sus estudios? La detección de estos casos de forma automática es muy difícil. Lo más fácil es entrevistar de forma anónima a los científicos y preguntarles si han falsificado o no alguna vez datos que han publicado en sus artículos. El 2% de los científicos admiten haber fabricado, falsificado o modificado datos o resultados al menos una vez en su vida. Más aún, si les entrevistamos y preguntamos si creen que sus colegas o colaboradores cercanos lo han hecho, así lo creen el 14%. Si les preguntamos si alguna vez han actuado en forma científicamente reprobable (sin especificar en qué) el 72% admite haberlo hecho. Números, porcentajes, que a mí me parecen muy alarmantes. El estudio es D. Fanelli, “How Many Scientists Fabricate and Falsify Research? A Systematic Review and Meta-Analysis of Survey Data,” PLoS ONE 4: e5738, May 29, 2009.

Los científicos que realizan su trabajo por “amor al arte,” por “amor a la ciencia,” por “amor,” son cada día bichos más raros, bichos en extinción. ¿Hay que salvar a esta especie en extinción? ¿Merece la pena gastar tanto dinero en salvar especies en extinción? Un estudio revela que el valor que los ciudadanos de a pie dan a las especies raras o en extinción es enorme comparado con el resto de las especies. Los que promueven el conservacionismo desde ONG y gobiernos están reflejando el interés común de todos por salvar a estas especies en peligro. ¿Quién quiere salvar a los bichos raros de la ciencia que se autoexcluyen a sí mismos del “publish or perish”? El estudio es E. Angulo, F. Courchamp, “Rare Species Are Valued Big Time,” PLoS ONE 4: e5215, April 22, 2009.

Nuevos índices-h (tipo Hirsch) para evaluar instituciones de investigación

El índice-h de Hirsch tiene algo “mágico” que atrae a la gente. Será que es fácil de calcular. Será que se ha publicado en la prestigiosa PNAS. Serán Hirsch ha conseguido dos artículos en PNAS sobre él. No lo sé, pero lo que sí sé es que a la gente le encantan las variantes del índide-h de Hirsch. Ronald Rousseau y Nadine Rons, “Another h-type index for institutional evaluation,” Current Science, 95: 1103, 10 nov. 2008 , han publicado otra variante del índice para medir la “calidad” de instituciones (universidades, departamentos o institutos de investigación) con gran número de investigadores.

Parten de la propuesta de Gangan Prathap de dos índices-h: h1 y h2 (“Time to publish: The scientific efficiency of nations,” Current Science, 91: 1438, 10 dec. 2006 ) propuestos para comparar países, también aplicables a instituciones. Lo más directo es utilizar el índice-h para una institución de la siguiente forma: El índice es h1 si la institución (conjunto de investigadores) ha publicado h1 artículos, cada uno de los cuales ha recibido al menos h1 citas. A esto le llaman índice-h institucional de primer nivel. Sin embargo, también se puede considerar este otro: El índice es h2 si la institución tiene h2 investigadores con índice individual al menos igual a h2 (es decir, cada uno con al menos h2 publicaciones citadas h2 veces). A esto le llaman índice-h institucional de segundo nivel.

Rousseau y Rons proponen un tercer índice h (de tercer nivel): Para cada científico de la institución, se asocia el conjunto de artículos que citan al menos uno de sus artículos. Para cada científico, el número de dichos artículos es un número característico. Ordenando dichos números para todos los científicos de la institución, proponen calcular un número h3, de científicos que al menos tienen h3 artículos que citan alguno de sus artículos.

Estos índices (h1,h2, y h3) han de ser calculados en un periodo de tiempo y contando las citas recibidas durante otro periodo de tiempo dado. ¿Por qué el índice h3 les parece más significativo? Porque sugieren que combina el impacto con el volumen de la investigación de la institución. El índice-h está correlacionado con el volumen de la producción, a más artículos, más índice-h. Rousseau y Rons proponen que no tener en cuenta todas las citas, sino sólo el número de diferentes artículos que citan artículos del autor, no elimina, pero reduce el efecto de las autocitas (especialmente, las autocitas de grupos de investigadores relacionados en la misma institución). Los autocitas no deben ser eliminadas completamente, por eso ellos afirman que su índice-h3 es más conveniente que los índices-h1 y h2. Además, su índice es menos susceptible a errores en las propias citas.

Como todos los índices-h, los autores recuerdan que el nuevo índice no tiene sentido en instituciones (grupos) de pocos investigadores.

Cómo ordenar o clasificar las revistas internacionales de investigación mediante el índice H

El índice H de una revista internacional no es fácil de calcular utilizando el ISI Web of Science, ya que requiere datos históricos acumulados. Sin embargo, el SCImago sí lo permite calcular (aunque sólo es el índice H desde 1994, dado que se basa en datos de Scopus de Elsevier). ¿Cuáles son las dos revistas de investigación más prestigiosas del mundo en la actualidad? La mayoría de nosotros pensará que son Nature y Science, quizás por este orden. ¿Qué dice el índice H de SCImago al respecto?

1. Nature, 531 artículos citados más de 531 veces, según SCImago 2007;

2. Science, 521.

5. PNAS (Proceedings of the National Academy of Sciences of the United States of America), 339.

11. Physical Review Letters, 268

Los interesados pueden consultar el listado completo.

No me “desagrada” este orden. ¿Qué pasa con las revistas de … pongamos, Computer Science?

1. Bioinformatics 111; 2. IEEE Transactions on Pattern Analysis and Machine Intelligence 111; 3 IEEE Transactions on Information Theory 102; 4 IEEE Journal on Selected Areas in Communications 101; 5 IEEE Transactions on Communications 92; 6 IEEE Transactions on Image Processing 88; 7 IEEE Communications Magazine 84; …

Tampoco, “chirría” este otro orden. ¿Y con las de Mathematics, Computational Mathematics?

1 SIAM Journal on Numerical Analysis 45; 2 Applied Mathematics and Computation 37; 3 Mathematics of Computation 32; 4 Numerische Mathematik 32; 5 Journal of Computational and Applied Mathematics 31; 6 Computers and Mathematics with Applications 30; …

No sé, no sé, me gusta menos, … quizás porque estoy acostumbrado al índice de impacto del ISI que las ordena de forma completamente diferente.

Todos tenemos preconcepciones. “Sabemos” qué revistas internacionales son más prestigiosas, independientemente de su índice de impacto, muchas tienen índices de impacto “ficticios” (ya que muchos editores se dedican a la ingeniería del índice de impacto). El trabajo de SCImago (de algunos amigos granadinos) me gusta. No “coincido” del todo con sus resultados, pero en muchos casos muestra ser más “fiable” con la “intuición”, menos “paradójico” que el índice de impacto, que este año en MATHEMATICS, APPLIED coloca a la “prestigiosa” (en “casa” del Editor Principal porque no lo es en ningún otro lugar) INTERNATIONAL JOURNAL OF NONLINEAR SCIENCES AND NUMERICAL SIMULATION, como la de mayor índice de impacto y con diferencia, con un índice de impacto “paradójicamente” enorme para el prestigio que tiene. Eso sí, si ojeas los últimos números, ciertos matemáticos “muy buenos” están publicando en ella, supongo que aprovechando la burbuja “especulativa” de su índice de impacto.

El índice-w de Wu otra variante del índice h para la colección (o si hay que ser atrevido, pues nada, a ello)

El índice-h es un índice cientométrico introducido por el físico Hirsch en 2005 para medir los logros científicos de un individuo, grupo, departamento o institución. El índice ha generado considerable interés. Por ejemplo, en algunas pruebas de habilitación en España se ha exigido incluir dicho índice en los C.V. de los participantes. No sólo el artículo de Hirsch ha recibido muchas citas de autores que lo analizan (cientométricamente es bastante discutible si el volumen de publicaciones no es grande dado que el número de citas sigue una ley exponencial, además algunos investigadores han demostrado que el número medio de citas es un mejor indicador, estadísticamente hablando). También se han publicado muchísimos índices alternativos, como el índice g, el índice h(2), el índice a, el índice r, el índice ar, el cociente m, el índice m, etc. Acaba de publicarse un nuevo índice, el índice w en el artículo Qiang Wu, “The w-index: A significant improvement of the h-index,” ArXiv preprint, 30 May 2008 .

El índice-w es también una medida simple del impacto científico de la investigación. Se define como sigue. Un investigador tiene un índice-w si w de sus artículos tienen al menos 10w citas cada uno, y los demás artículos tienen menos de 10(w+1) citas. Por ejemplo, Stephen Hawking tiene un índice-w de 24, lo que significa que 24 de sus artículos han sido citados al menos 240 veces cada uno, y al mismo tiempo, no tiene 25 artículos citados al menos 250 veces cada uno. Edward Witten del Instituto de Estudios Avanzados de Princeton tiene un índice-w de 41, mucho mayor que Hawking. La idea de este índice es reflejar mejor que el índice-h el impacto de los artículos más representativos del investigador. Por supuesto, el Dr. Wu no ha pensado mucho y el índice-w podría llamarse el índice-10h. Aunque una regresión lineal muestra que el índice-w es aproximadamente 4 veces el índice-h.

El artículo es poco convincente pero presenta una ordenación de los 10 primeros físicos y químicos según el índice-h y el nuevo índice-w, decidiendo en autor que es “obvio” que su nuevo índice ordena mejor a los investigadores. Por ejemplo, Cardona mucho peor que Hawking.

Lo más “atrevido” del artículo es la clasificación de investigadores según su índice-w. Investigador junior que conoce los rudimentos de la materia (índice-w de 1 o 2), investigador senior que domina su materia (índice-w de 3 o 4), investigador con éxito (índice-w de 5), genios de su campo (índice-w de 10) y grandes genios (índice-w de 15 tras 20 años de publicaciones, o índice-w de 20 tras 30 años). ¡¡Radicalmente atrevido!!