Plan Avanza: AL4Tour

Active Listening for Tourism



Se identifican tres líneas de I+d+i:

1.- Desarrollar el modelo de Lenguaje natural mediante:

  • Un modelo de vistas sobre Ontologías. Modelado directamente desde el gestor de perfiles de la aplicación: Definición de un lenguaje sencillo de consulta para definir vistas sobre repositorios ontológicos. Además se aplicará este nuevo concepto a la construcción colaborativa de ontologías. Siguiendo esta línea se propone implementar esta filosofía dentro del framework de generación de aplicaciones orientadas a conocimiento justamente en el gestor de perfiles del framework. Es decir, se van a definir exactamente que porciones de conocimiento van a ser accedidas o construidas por cada uno de los actores de la futura aplicación. Este concepto no es baladí; piénsese que un número elevado de ontologías tienen decenas de miles de instancias y este ha sido uno de los mayores obstáculos (en términos de performance) para portar esta tecnología al entorno empresarial.
  • Nuevos algoritmos de recuperación de la información basados en Conocimiento: En la línea de investigación se plantea la posibilidad, en el contexto del text mining, de utilizar ontologías en lugar de tesaurus para etiquetar y generar clusters de documentos. Esta línea de investigación resulta atractiva, pues supone un acercamiento a un proceso de clasificación y marcado basado en conocimiento, emulando (salvando siempre las distancias) la experiencia de un experto humano en ese campo. Las aplicaciones web generadas desde el entorno de desarrollo propuesto, tendrán definidos los repositorios documentales que serán susceptibles de procesarse por estos algoritmos. Así, nueva información autodescriptiva será adherida a la aplicación.
  • Enriquecimiento de los razonadores. Posibles extensiones a lógicas de orden superior: Esta es la línea en la que se pretenden obtener resultados publicables en los próximos meses. Se van a dotar a las aplicaciones de razonadores que evalúen la consistencia de la ontología y que permitan a los usuarios finales realizar ciertas inferencias sobre la aplicación. En la actualidad el formato utilizado para implementar esta lógica es OWL-DL, que permite albergar fragmentos de lógica de primer orden. Se plantea la posibilidad de enriquecer tanto el formato OWL-DL como la capacidad de los razonadores existentes en el mercado como Racer o Pellet.

2.- Desarrollar los siguientes servicios:

  • Servicio Buscador Semántico: Encargado de clasificar documentos de texto, generalmente almacenados en un repositorio y de hacer procesado de lenguaje natural.
  • El servicio de clasificación se debe dividir en clasificación general y por tesauros. En la clasificación general se realizan búsquedas de documentos o palabras a partir de un repositorio y se calcula la frecuencia de ocurrencia de estas palabras dentro de los documentos. Allí se generan diferentes nodos que se relacionan unos con otros según las intersecciones entre cada uno de los documentos.
  • La clasificación por tesauros contiene una lista de términos empleados para representar los conceptos, temas o contenidos de los documentos, con miras a efectuar una normalización terminológica que permita mejorar el canal de acceso y comunicación. El proceso de clasificación con tesauros supone el uso de una base de datos que permita manipular estructuras de datos tipo árbol y que aloje los datos acerca de las palabras mencionadas en los textos de los documentos y relacionadas con el tesauro.

Para el servicio de procesado de lenguaje natural se deben construir los siguientes módulos:

  • Módulo de reconocimiento de patrones que recupere un conjunto de expresiones regulares descritas en un fichero texto y un conjunto de funciones asociadas a cada expresión regular. A partir de esto se reconstruye el texto en el que se reconocen las expresiones que en él aparecen y una estructura que permite conocer los índices y valores originales de cada expresión regular encontrada.
  • Módulo de extracción de instancias planas que utilizan el módulo de reconocimiento de patrones y debe extraer instancias planas basadas en un lexicón de base de datos, utilizando un fichero con dicha información, reconociendo las expresiones regulares, los sinónimos de los tipos y atributos de la base de datos y para retornar toda la información coleccionada.
  • Módulo de extracción de consultas permite reconocer el objeto de consulta y convertir una seudo-consulta en una consulta G o una consulta SQL.
  • Módulo de servicios que encapsula un servidor en un puerto específico para levantar diferentes servicios.

3.- Geoposición y ubicación geográfica:

  • Herramienta de ubicación y localización de los activos que se basará en mapas web, incluirá también potencialidades de georefrenciación de los recursos de campo encargados de toma de datos, de las opiniones vertidas y demás cuestiones correspondientes a los procesos del ciclo de gestión de la reputación.