Citas y Tesis: Nuevas métricas en Kampal Research

Citas

 

Kampal Research (en adelante KR) es nuestro producto para el análisis avanzado de la actividad en I+D+i, basado en tecnologías BigData, Inteligencia Artificial y Redes Complejas. (https://research.kampal.com)

 

Tras la obtención de todos los datos necesarios de la Institución o Conjunto a estudiar, se procede a analizar un elevado número de indicadores, basados en los datos disponibles; los datos básicos que analizamos son (entre otros)

  • Artículos Indexados o no
  • Proyectos locales, autonómicos, nacionales o Europeos
  • Actividades de Transferencia tecnológica
  • Datos profesionales de los investigadores y personal técnico y de Apoyo

 

Con ellos realizamos un exhaustivo análisis y extraemos diferentes informaciones e indicadores de actividad (métricas), como por ejemplo

  • Estadística de Investigadores, evolución, categorías profesionales.
  • Mapeo de la estructura organizativa (Facultades, Departamentos, Institutos)
  • Productividad en publicaciones científicas
  • Productividad en Proyectos y Fondos
  • Transferencia

 

Estas informaciones son tanto a nivel individual como agregadas a nivel de cada una de las estructuras que componen la Institución (Por ejemplo productividad de un Departamento, Instituto…)

 

En el caso de las publicaciones científicas, en KR hasta ahora analizábamos las siguientes métricas:

 

Para todas las publicaciones

  • Número

Para las revistas indexadas

  • Impacto 
  • Cuartil
  • Decil
  • Número

 

El impacto de un artículo es el impacto de la revista en el año de publicación, y este impacto se recoge en diferentes listas internacionales. Citemos por ejemplo el Journal Citation Report de WOK, el Journal Impact Factor de Elsevier o SCimago de la Universidad de Granada.

 

Para calcular el Impacto de una revista, primero definimos el conjunto de revistas que admitimos como de fiabilidad científica contrastada, y construimos una lista con ellas, que llamamos Revistas Indexadas.

Ahora nos fijamos en los artículos de una revista concreta, y en todos sus artículos de un periodo concreto, por ejemplo los dos años anteriores. Digamos que en esa revista, en 2018 y 2019 se han publicado 2387 artículos.

A continuación miramos en todas las revistas de nuestra lista y en todos sus artículos  del último año y contabilizamos cuántas citas hay a alguno de esos 2387 artículos. Supongamos que han recibido 10456 citas. Pues bien, ahora calculamos el número medio de citas de cada artículo en un año de nuestra revista. En este caso seria 104546/2387 lo que hace un Factor de Impacto de 4.38

Ver por ejemplo https://es.wikipedia.org/wiki/Factor_de_impacto para un explicación detallada.

 

Este índice de impacto cambia cada año.

 

El factor de Impacto mide pues la calidad de la revista en la que se ha publicado el artículo, como el número de citas medio recibido por los artículos publicados en dicha revista.

 

Todas estas métricas pueden ser pesadas según el número de autores; así en diferentes ámbitos científicos se valoran menos los artículos con muchos firmantes, por ejemplo dividiendo el mérito en cuestión, por ejemplo el Factor de Impacto de una publicación, por el número de firmantes del mismo.

 

Las métricas basadas en el Factor de Impacto son de uso general y aplicable a todos los ámbitos científicos y permite comparar actividades muy dispares, pero presenta dos problemas.

 

El primero es que el número de citas que se reciben es grosso modo proporcional al número de artículos que se publican en el campo en que se trabaja.

Por ejemplo en Álgebra, el número de publicaciones medias de un investigador es bajo, entre 1 y 2 digamos. Esto implica que el número total de artículos total es bajo, el número de citas es bajo, y el factor de impacto es bajo (por ejemplo 1.3)

En Medicina, el número medio de publicaciones anuales es alto (por ejemplo supongamos del orden de 5). Existen muchas más publicaciones, por tanto muchas más citas, y mayor índice de impacto, de 3.4, supongamos.

 

Si ahora comparamos un investigador de Álgebra con uno de Medicina, a igualdad de calidad relativa en su área de investigación, el índice de impacto del primero sería 1.3 y del segundo 3.4 a pesar de ser comparables.

 

Para evitar este problema, usamos los cuartiles o deciles (percentiles en general). Para definir estas cantidades procedemos del siguiente modo.

En primer lugar, y siguiendo el ejemplo anterior, seleccionamos todas las revistas que trabajan en Álgebra. Imaginemos que obtenemos 120 revistas. Hacemos lo mismo en Medicina y obtenemos 1300 revistas.

Ahora ordenamos cada lista por el Índice de Impacto. Una vez ordenadas, tomamos el 25% de las revistas con mayor índice de impacto (primer cuartil). Obtenemos 12 revistas en Álgebra y 130 en Medicina. Podemos ahora considerar el 25% siguiente (segundo cuartil), y también tercer o cuarto cuartil.

 

Ahora ya podemos decir que la calidad de un artículo en Álgebra y Medicina es comparable si están en el mismo cuartil, pues independientemente del número de revistas de la disciplina, la calidad  se mide en función de la posición relativa de la publicación, independiente del número de revistas. 

En KR asignamos 4 puntos a las revistas del primer cuartil, 3 a las del segundo, 2 a las del tercero y 1 a las del cuarto, y con esta puntuación construimos la métrica correspondiente.

 

Para el caso de los deciles, consideramos solamente el primer decil (el top 10% de las revistas), y la métrica es simplemente el número de publicaciones en este primer decil; esta métrica se considera como una medida de la Excelencia de las publicaciones de un autor o Institución.

 

Con esto resolvemos el problema de las diferencias entre Áreas de conocimiento con muy diferentes índices de impacto. Pero aún queda otra cuestión que puede afectar la calidad de las métricas.

Cuando pensamos en base al Factor de Impacto, directo o con percentiles, lo que medimos es la calidad de la revista, pero es evidente que dentro de una revista hay artículos que reciben un elevado número de citas y otros muy pocas (eventualmente ninguna).

Por tanto, si queremos medir concretamente la calidad de un simple artículo, parece natural medir las citas que recibe concretamente él. 

En KR hasta ahora no habíamos incluido métricas basadas en el número de citas, y dada su relevancia, las hemos incluido en nuestra última versión de la herramienta, y pueden verse en todos aquellos proyectos en los que disponemos de los datos del número de citas para cada artículo.

 

La métrica de las citas también no está libre de problemas. El principal es que muchas veces las citas proceden del mismo autor (autocitas) y estas citas por tanto no deberían ser consideradas, pues es posible que la cita provenga de que la autoría es la misma, no de la calidad de la publicación. Esto suele tratarse eliminando las autocitas, pero no es un proceso simple, pues no es lo mismo que te cite un artículo propio, pero con varios autores importantes más, que te cites en un artículo donde eres el único firmante (en este último caso, la cita pierde mucho de su valor).

De hecho cuando se produce un trabajo relativamente irrelevante desde el punto de vista científico, pero en el que trabajan diferentes grupos, las citas de un grupo a otro son continuas y no se excluyen al no ser autocitas, pero sí que suponen un aumento artificioso del número de citas. 

 

La métrica de citas permite asignar a cada persona o institución las citas totales recibidas, bien en periodos definidos, bien a lo largo de toda su actividad. Este número total de citas tiene exactamente el mismo  problema que el Índice de Impacto: las citas de un Investigador de Álgebra, a igual calidad, recibirá menos citas que un investigador en Medicina.

Del mismo modo las citas totales ocultan parte de la información; no es lo mismo tener todas las citas concentradas en un único artículo, que distribuidas en varios.

 

Una métrica que se ha popularizado para integrar en un sólo número el conjunto de citas recibido es el índice h.

Para construirlo ordenamos los artículos de una persona por el número de citas ( de mayor a menor).  Para ilustrar el proceso supongamos que ponemos al lado de cada artículo su número de orden en la lista, por ejemplo

Ahora en esta lista buscamos donde se corta el Número de orden con el Número de citas, concretamente el número h de artículos que tienen h o más citas. En este caso vemos que tenemos 6 artículos con 6 o más citas. (por ejemplo no podemos decir lo mismo del 7: no hay 7 artículos con 7 o más citas). Por tanto decimos que el índice h de este autor es 6.

 

En diferentes ámbitos académicos y de investigación se usan diferentes métricas y con criterios específicos, Por ello, y para facilitar un uso amplio de nuestra herramienta, y también para dar una visión lo más amplia y multidisciplinar de la actividad, en KR incluimos todas las métricas anteriores, cada una con preciosa y complementaria información.

 

Incluso con el elevado número de métricas incluidas existen otras  muy diferentes basadas en el Factor de Impacto, en las citas, etc. Existe una línea de investigación muy activa en la dirección de cómo definir métricas que cada vez reflejen de forma más precisa la actividad y calidad de las publicaciones científicas; nosotros en KR seguiremos incluyendo todas aquellas que vayan recibiendo un reconocimiento suficiente entre la comunidad científica y académica.

 

Tesis Doctorales

 

Las Tesis Doctorales están en la base de la investigación, muy especialmente para la formación de los nuevos investigadores, siendo un proceso en el cual se generan una gran cantidad de conocimiento y descubrimientos científicos. Históricamente han jugado un papel esencial en la transmisión, propagación y generación del conocimiento científico, los procesos de aprendizaje y de el mantenimiento del acervo cultural. Siguiendo la actividad histórica en Tesis, podemos construir un verdadero árbol genealógico del desarrollo científico.

 

Por todo ello, el estudio de la actividad de un investigador o una institución en la dirección y lectura de Tesis Doctorales, es un factor de calidad importante, y medido oportunamente una métrica que permite cuantificar esta actividad.

 

En KR hemos incluido el tratamiento de la actividad en torno a las Tesis, tanto desde un punto de vista estadístico como colaborativo.

 

Para cada investigador se muestra el número de Tesis Dirigidas, número que también se incorpora para calcular los índices generales de actividad.

 

Pero más allá de las cuestiones numéricas, las Tesis nos indican cómo se desarrolla en una Institución el proceso de transmisión del conocimiento, de formación de grupos de investigación, de liderazgo en la creación de nuevas líneas de investigación o de afianzamiento de las existentes.

 

Para concretar estos puntos, en KR hemos considerado la estructura colaborativa construida del siguiente modo.

Para cada Tesis leída, consideramos su director (o directores) y el doctorando. Construimos la siguiente Red Colaborativa:

Los nodos son todos aquellos investigadores que han leído o dirigido una Tesis.

Para cada Tesis, consideramos una link (unión) dirigida (con flecha) que va del Director al Doctorando.

Obtenemos así una Red Dirigida donde puede verse de un golpe de vista la actividad en torno a las Tesis, líneas hereditarias, genealogía, comunidades afines, grupos cohesivos o dispersos, etc.

Para un sólo investigador raíz podemos obtener su árbol genealógico científico