Web Analytics

El Word2vec, nos ahorrará años de investigación

Robot

Una de las cosas más difíciles que afrontan los científicos es encontrar una línea firme de trabajo. Muchas veces se trabaja durante años sólo con la intuición o la fe de que se tendrán buenos resultados. Lo triste es que, al final de muchos experimentos y pruebas resulta que no íbamos por el camino correcto. En este punto, analizar paso a paso lo que se hizo es tedioso y ni hablar del hecho de volver a empezar desde cero. Este tipo de desaventura está a punto de terminar para todos aquellos que amamos el hacer ciencia.

laboratory

La inspiradora idea proviene de un equipo de investigadores de basta experiencia. El título de la investigación es: ‘Incrustaciones de palabras no supervisadas, captura el conocimiento latente de la literatura de ciencia de materiales‘, donde Vahe Tshitoyan es el autor principal. Al frente se encuentra un científico de la División de Recursos de Almacenamiento y Distribución de Energía de Berkeley Lab. Su nombre es Anubhav Jain. A ellos se les ocurrió diseñar un algoritmo computacional que pudiera describir algunos términos, conceptos o materiales a partir de información suministrada. El nombre que se le dio al algoritmo es: ‘Word2vec’.

El algoritmo

Y el nombre del algoritmo es un indicador de cómo se desarrolla el proceso. Una palabra es transformada en un vector con varios componentes. En este caso en un vector de 200 dimensiones, que explicado de una forma más sencilla serían 200 números. Aquí lo más importante es usar esos números para descubrir cómo se podrían relacionar estas palabras entre sí usando una combinación de teoría, cálculo y minería de datos.

Como Jain, trabaja para diseñar y descubrir nuevos materiales que se puedan utilizar en aplicaciones energéticas recolectó 3,3 millones de resúmenes de artículos científicos. Estos artículos científicos del área de ciencia de materiales, pertenecen a más de mil revistas de diferentes niveles de impacto. Llegando a tener un total de 500 mil palabras diferentes en esos resúmenes. Entonces se procedió a entrenar el algoritmo y éste pudo aprender términos y conceptos científicos tales como la estructura cristalina de los metales. Incluso, pudo aprender las relaciones entre los elementos de la tabla periódica.

La mayor novedad

Sin embargo, lo más sorprendente estuvo en que ‘Word2vec’ pudo predecir nuevos materiales termoeléctricos. Incluso pudo sugerir como candidatos, algunos materiales que no se habían tenido en cuenta en esta área del saber. De este modo, si se aprovechan bien las potencialidades de ‘Word2vec’ podríamos estudiar las áreas en la que aún se necesita profundizar y que ahora son: lagunas por llenar. Pues muchas veces, como se expuso al principio, las investigaciones se realizan de una manera fortuita o según la intuición del investigador.

Como ya hace más de 100 años que se realizan publicaciones en cada campo del saber, existe una gran cantidad de materiales a consultar. Pero esto se agrava ya que cada semana salen más y más estudios. De modo que, un investigador tendría que consultar los documentos del pasado, y cada día leer decenas de páginas, sólo para estar al día. Esto requiere mucho esfuerzo y no dejaría tiempo para desarrollar las propias investigaciones. Por tal razón, el aprendizaje automatizado, en este caso, el algoritmo ‘Word2vec’ ahorrará tiempo y aportará mucha información valiosa.

Con información de:  http://www.europapress.es/

Recommended For You

About the Author: Ciencia

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *