El Word2vec, nos ahorrará años de investigación

El Word2vec

A partir de un nuevo algoritmo es muy posible que la ciencia avance cuatro veces más rápido de lo que se ha logrado hasta el momento. Esta es una idea innovadora que ya ha dado resultados en el área de la ciencia de los materiales. El nombre del algoritmo es el Word2vec y está basado en

El Word2vec

Una de las cosas más difíciles que afrontan los científicos es encontrar una línea firme de trabajo. Muchas veces se trabaja durante años sólo con la intuición o la fe de que se tendrán buenos resultados.

Sobre todo lo que más entristece es que, al final de muchos experimentos y pruebas resulta que no íbamos por el camino correcto. En este punto, analizar paso a paso lo que se hizo es tedioso y ni hablar del hecho de volver a empezar desde cero. Este tipo de desaventura está a punto de terminar para todos aquellos que amamos el hacer ciencia.

El Word2vec
Mijer en el laboratorio

La inspiradora idea proviene de un equipo de investigadores de basta experiencia. El título de la investigación es: ‘Incrustaciones de palabras no supervisadas, captura el conocimiento latente de la literatura de ciencia de materiales‘, donde Vahe Tshitoyan es el autor principal.

Al frente se encuentra un científico de la División de Recursos de Almacenamiento y Distribución de Energía de Berkeley Lab. Su nombre es Anubhav Jain. A ellos se les ocurrió diseñar un algoritmo computacional que pudiera describir algunos términos, conceptos o materiales a partir de información suministrada. El nombre que se le dio al algoritmo es: ‘Word2vec’.

Además el algoritmo

Y el nombre del algoritmo es un indicador de cómo se desarrolla el proceso. Una palabra es transformada en un vector con varios componentes. En este caso en un vector de 200 dimensiones, que explicado de una forma más sencilla serían 200 números. Aquí lo más importante es usar esos números para descubrir cómo se podrían relacionar estas palabras entre sí usando una combinación de teoría, cálculo y minería de datos.

Diseñar y descubrir nuevos materiales

Como Jain, trabaja para diseñar y descubrir nuevos materiales que se puedan utilizar en aplicaciones energéticas recolectó 3,3 millones de resúmenes de artículos científicos. Estos artículos científicos del área de ciencia de materiales, pertenecen a más de mil revistas de diferentes niveles de impacto.

Llegando a tener un total de 500 mil palabras diferentes en esos resúmenes. Entonces se procedió a entrenar el algoritmo y éste pudo aprender términos y conceptos científicos tales como la estructura cristalina de los metales. Incluso, pudo aprender las relaciones entre los elementos de la tabla periódica.

La mayor novedad

Sin embargo, lo más sorprendente estuvo en que ‘Word2vec’ pudo predecir nuevos materiales termoeléctricos. Incluso pudo sugerir como candidatos, algunos materiales que no se habían tenido en cuenta en esta área del saber.

De este modo, si se aprovechan bien las potencialidades de ‘Word2vec’ podríamos estudiar las áreas en la que aún se necesita profundizar y que ahora son: lagunas por llenar. Pues muchas veces, como se expuso al principio, las investigaciones se realizan de una manera fortuita o según la intuición del investigador.

El Word2vec
El Word2vec

En resumen

Como ya hace más de 100 años que se realizan publicaciones en cada campo del saber, existe una gran cantidad de materiales a consultar. Pero esto se agrava ya que cada semana salen más y más estudios. De modo que, un investigador tendría que consultar los documentos del pasado, y cada día leer decenas de páginas, sólo para estar al día.

Por lo tanto

Esto requiere mucho esfuerzo y no dejaría tiempo para desarrollar las propias investigaciones. Por tal razón, el aprendizaje automatizado, en este caso, el algoritmo ‘Word2vec’ ahorrará tiempo y aportará mucha información valiosa.

Deja un comentario