Científicos crean automatizado 'máquina del tiempo' para reconstruir las lenguas antiguas 11-Feb-2013

Científicos crean automatizado 'máquina del tiempo' para reconstruir la antigua languagesComputer programa acelera la replicación de las lenguas ancestrales
Lenguas antiguas tienen un tesoro de información sobre la cultura, la política y el comercio de los últimos milenios. Sin embargo, la reconstrucción a revelar pistas sobre la historia humana puede requerir décadas de arduo trabajo. Ahora, científicos de la Universidad de California, Berkeley, han creado una "máquina del tiempo", automatizado de las clases, que se acelerará en gran medida y mejorar el proceso de reconstrucción de cientos de lenguas ancestrales.

En un ejemplo de cómo "big data" y el aprendizaje de la máquina están empezando a tener un impacto significativo en todas las facetas del conocimiento, los investigadores de la Universidad de Berkeley y la Universidad de la Columbia Británica han creado un programa informático que puede reconstruir rápidamente "proto-lenguas" - los antepasados ??lingüísticos de la que han evolucionado todos los idiomas modernos. Estos lenguajes antiguos que se conocen incluyen Proto-Indo-Europea, Proto-Afroasiatic y, en este caso, Proto-Austronesian, que dio origen a las lenguas que se hablan en el sudeste de Asia, partes de Asia continental Australasia y el Pacífico.

"Lo que me entusiasma de este sistema es que toma muchas de las grandes ideas que los lingüistas han tenido sobre la reconstrucción histórica, y les automatiza a una nueva escala: más datos, más palabras, más idiomas, pero menos tiempo", dijo Dan Klein, profesor asociado de ciencias informáticas en la Universidad de Berkeley y coautor del artículo publicado en línea hoy (11 de febrero) en los journalProceedings de la Academia Nacional de Ciencias.

Modelo computacional del equipo de investigación utiliza el razonamiento probabilístico - que explora la lógica y la estadística para predecir un resultado - para reconstruir más de 600 lenguas Proto-Austronesian de una base de datos existente de más de 140.000 palabras, replicando con un 85 por ciento de exactitud lo que los lingüistas habían hecho manualmente. Mientras que la reconstrucción manual es un meticuloso proceso que puede llevar años, este sistema puede realizar una reconstrucción a gran escala en cuestión de días o incluso horas, dijeron los investigadores.

No sólo va a acelerar este programa hasta la capacidad de los lingüistas para reconstruir las proto-lenguas del mundo en gran escala, aumentando nuestra comprensión de las civilizaciones antiguas con base en sus vocabularios, pero también puede proporcionar pistas sobre cómo las lenguas pueden cambiar año a partir de ahora.

"Nuestro modelo estadístico se puede utilizar para responder a preguntas científicas acerca de las lenguas a través del tiempo, no sólo para hacer inferencias sobre el pasado, sino también para extrapolar cómo el lenguaje podría cambiar en el futuro", dijo Tom Griffiths, profesor asociado de psicología, director de la Universidad de California Ciencia Cognitiva Computacional del Laboratorio de Berkeley y otro co-autor del artículo.

El descubrimiento avanza la misión de la Universidad de Berkeley para dar sentido a los grandes datos y utilizar las nuevas tecnologías para documentar y mantener las lenguas en peligro de extinción como los recursos críticos para la preservación de las culturas y conocimientos. Por ejemplo, los investigadores planean utilizar el mismo modelo computacional para reconstruir proto-lenguas indígenas de América del Norte.

Primeros registros escritos de los seres humanos datan de menos de 6.000 años, mucho después de la llegada de muchos proto-lenguas. Mientras que los arqueólogos pueden vislumbrar directos de lenguas antiguas en forma escrita, los lingüistas suelen utilizar lo que se conoce como el "método comparativo" para investigar el pasado. Este método establece las relaciones entre las lenguas y la identificación de sonidos que cambian con regularidad en el tiempo para determinar si comparten una lengua madre común.

"Para entender cómo los cambios de lenguaje - que es más probable que los sonidos

cambiar y lo que se convertirá en - requiere la reconstrucción y el análisis

grandes cantidades de formas de las palabras ancestrales, que es donde automático

reconstrucciones juegan un papel importante ", dijo Alexandre Bouchard-Côté, una

asistente del profesor de estadística en la Universidad de Columbia Británica

y autor principal del estudio, que comenzó cuando era estudiante de posgrado en

UC Berkeley.

El modelo computacional UC Berkeley se basa en la teoría lingüística establecido que las palabras evolucionan a lo largo de las ramas de un árbol de la familia - al igual que un árbol genealógico - que refleja las relaciones lingüísticas que evolucionan con el tiempo, con las raíces y los nodos que representan proto-lenguas y las hojas que representan lenguas modernas.

Usando un algoritmo conocido como la cadena de Markov Monte Carlo sampler, el programa ordenados a través de conjuntos de cognados, palabras en idiomas diferentes que comparten un sonido común, historia y origen, para calcular las probabilidades de qué conjunto se deriva de que la proto-lengua. En cada paso, se almacena una reconstrucción hipotética para cada cognado y cada lengua ancestral.

"Debido a los cambios de sonido y reconstrucciones están estrechamente vinculados, nuestro sistema las utiliza para mejorar en varias ocasiones entre sí", dijo Klein. "Se fija por primera vez los cambios de sonido predichos y deduce mejores reconstrucciones de las formas antiguas. Se fijaría las reconstrucciones y re-análisis de los cambios de sonido. Estos pasos se repiten, y los dos predicciones mejoran gradualmente a medida que la estructura subyacente emerge a través del tiempo. "

Comentarios