Juan Chamero

Metodología Darwin

  • Aumentar el tamaño de la letra
  • Tamaño de letra predeterminado
  • Reducir el tamaño de la letra

Breadcrumbs

Home SSSE, Súper Buscadores Semánticos (I)

SSSE, Súper Buscadores Semánticos (I)

Correo electrónico Imprimir PDF

La Web Semántica

Develada por la Metodología Darwin

Por Juan Chamero, Esta dirección electrónica esta protegida contra spambots. Es necesario activar Javascript para visualizarla , Buenos Aires – Madrid – Dallas, 25 de mayo 2010

 

Darwin 8: SSSE, Súper Buscadores Semánticos de un solo clic (I)

 

Web Thesaurus uses

Uso de los Tesauros Web

 

Resumen: Los Tesauros Web permiten ordenar semánticamente la Web o al menos verla como virtualmente ordenada a través de una especie de “gafas virtuales”. Mediante estas gafas y una “e-membrana” o “membrana inteligente  es posible crear buscadores semánticos que trabajen a modo UOLQN, Usted Obtiene Lo que Necesita - EUSC, En Un Solo Clic (en inglés serian buscadores YGWYN – IOOC, You Get What You Need In Only One Click).

 

Los buscadores Web son aplicaciones o Servicios Web dentro de la ciencia-arte de la Recuperación de la Información (IR o “Information Retrieval”, dentro a su vez de la Ciencia de Sistemas y de la Ingeniería de Sistemas. En Google usted podrá echar un vistazo a la Guía “How Google Works”, ¿Cómo Trabaja Google? Donde se mencionan los tres componentes básicos de cualquier buscador convencional, a saber:

 

o   Un agente, robot o familia de ellos que navega por toda la Web:

o   Un Sistema Indexador que detecta y clasifica cada palabra de cada una de las páginas Web y almacena esos índices en una gigantesca base de datos:

o   Un Sistema de Consulta que contrasta las consultas de los usuarios sobre una especie de Índice Global de la Web (la suma lógica de los índices actualizados de todas las páginas Web, y de un análisis del mismo recomienda las referencias más relevantes;

 

Ahora bien el   trabajo y mérito de la recuperación de la información más relevante empleando su intuición y su experiencia ayudado o no por herramientas y procedimientos IR es cuestión del usuario. Los buscadores actuales son simplemente “Oráculos” pasivos que responden a consultas de acuerdo a criterios más o menos globales, universales y fijos pero no dialogan con los consultantes. El Juego de la búsqueda tiene mucho del juego de las adivinanzas en el cual uno tiene que hacer preguntas que vayan reduciendo lo que en “Teoría de la Información” se llama el “Grado de Incertidumbre”.

 

 

El Juego de las adivinanzas

 

Un clásico ejercicio en las clases de teoría de la Información es enseñar a los estudiantes a reducir el grado de incertidumbre primero en forma binaria, dividiéndola (a la incertidumbre) siempre en dos regiones de incertidumbre del mismo tamaño, o a lo sumo discrepando en una unidad, mediante preguntas excluyentes del tipo: ¿tal cosa es de sexo masculino o femenino?, ¿esa tal cosa tiene más (o menos o es igual a) de x años?, etc.  Este procedimiento es sencillo y rápidamente convergente hasta “acorralar” a esa tal cosa entre dos o tres opciones. Si las opciones finales fueran A, B, o C, la pregunta develadora sería: ¿ es A?. Si la respuesta es Sí, la tal cosa es A, caso contrario habría que hacer otra pregunta para discriminar entre B o C. Si hubieran restado solo dos opciones, A o B el juego se resolvería con una sola pregunta: ¿es A? o ¿es B? Tomemos como ejemplo una variedad de 1013 opciones de igual probabilidad de ocurrencia. El procedimiento sería:

 

1. ¿está en estos 506? => Respuesta NO: luego está dentro de la región de 507 elementos;

2. ¿está en estos 254? => Respuesta NO; luego está dentro de la región de 253 elementos;

3. ¿está en éstos 126? => Respuesta SI; luego está dentro de la región de 126 elementos;

4. ¿está en estos 63? => Respuestas SI; luego está dentro de la región de los primeros 63 elementos;

5. ¿está en estos 32? => Respuesta NO; luego está dentro de la segunda región de 32 elementos;

6. ¿está en estos 16? => Respuesta SI; luego está dentro de la primera región de 16 elementos;

7. ¿está en estos 8? => Respuesta NO; luego está dentro de la segunda región de 8 elementos;

8. ¿está en estos 4? => Respuesta SI; luego está dentro de la primera región de 4 elementos;

9. ¿está en estos 2? => Respuesta SI; luego está dentro de la primera región de 2 elementos;

10. ¿está en ÉSTE?? => Respuesta NO; luego la tal cosa es el elemento descartado por la pregunta.

 

 Como vemos se han realizado 10 preguntas excluyentes. Si realizamos ahora una identificación del “camino” binario (SIs y NOs) tendríamos que el elemento adivinado, uno de los 1013, se identifica con la siguiente secuencia:

 

NO NO SI SI NO SI NO SI SI NO

 

Y con la equivalencia SI ó 1, NO ó 0 el número binario

 

[0011010110]214

 

El Álgebra Binaria, dentro de La Teoría de los Números nos enseña que con 10 dígitos se pueden ubicar o indexar hasta 210 = 1024 elementos dentro de una región de incertidumbre, desde el elemento [0000000000] al [1111111111], que respectivamente se “leen” en decimal desde el 0 al 1023. El número adivinado en decimal y leyendo de derecha a izquierda es 214 en decimal.

 

En los sistemas de numeración posicionales cada dígito de la “base” empleada, por ejemplo 2 en el Sistema Binario, 8 en el Sistema Octal y 10 en el Sistema Decimal, tiene un valor posicional. Así un 1 en la posición 5 contada a partir de la derecha en estos ejemplos tiene un valor 2(5-1) = 16 en el Sistema Binario, 8(6-1) = 4.096 en el Sistema Octal y 10(5-1) = 10.000 en el Sistema Decimal.  Luego, la lectura posicional del número [0011010110] en binario sería ó 1x27 + 1x26 + 1x24 + 1x22 + 1x21 = 128 + 64 +16 + 4 + 2 = 214. A los niños y a los no tanto se les ensena el método “double dabble” que consiste en doblar y sumar de partir del primer dígito significativo de izquierda a derecha,  se dobla siempre y se suma un 1 si se lo encuentra después de doblar. Así, nuestro número [0011010110] se leería: 0 doblado más 1 es 1; 1 doblado más 1 es 3; 3 doblado más 0 es 6; 6 doblado más 1 doblado es 13; 13 doblado más 0 es 26; 26 doblado más 1 es 53; 53 doblado más 1 es 107; 107 doblado más 0 es 214.

 

Nota: La cantidad de preguntas binarias en éste ejemplo de 1013 elementos, cantidad comprendida entre 512 y 1023 será, en promedio, un número comprendido entre 9 y 10, mucho más cerca de 10 que de 9. En efecto, de acuerdo al análisis presentado con 9 preguntas se cubre un espectro de 29 = 512 posibilidades y con 10 uno de 210 = 1024 mucho más cerca de 1013 que el límite inferior 512.

 

 

 

Cómo procede Darwin para reducir el Grado de Incertidumbre

 

 

En la figura se esquematiza la lógica empleada por Darwin. Si bien conceptualmente podríamos explorar la Web en forma binaria el proceso sería muy ineficiente pues para ello el espectro de incertidumbre de la Web, en teoría hoy cercano a 20.000 millones de posibilidades a razón de una por página Web, debería ser de elementos equiprobales, característica de la cual el contenido Web está muy distante: las probabilidades de ser consultadas (las de las páginas) difieren enormemente entre sí. Poseyendo en cambio un Tesauro Web, equivalente a un gigantesco mapa conceptual jerárquicamente organizado en niveles, el rango de incertidumbre se reduce sustancialmente mediante un dialogo hombre - máquina entre el usuario y el Wizard Darwin, en promedio en no más de cinco pasos previos a un primer clic.

 

En efecto, al contar el Wizard con un mapa conceptual de la Web encuentra prácticamente cualquier objeto semántico navegando por la estructura arbórea anteriormente descrita. Antes de hacer el clic un programa inteligente hombre - máquina ubicado en la e-membrana, hace de súper bibliotecario virtual del Océano Web y mediante un proceso muy convergente de preguntas y de ayudas supuestamente espontáneas  guía al usuario para que encuentre de por si el lugar del espacio Web donde, casi con seguridad, encontrará la respuestas a su pregunta, en una palabra lo guiará para salir de un estado de tremenda incertidumbre del orden de 1:20.000.000.000 de opciones a un sub espacio del orden de 1:10, algo así como decirle: mire entre  las 10 referencias Top que el buscador (potenciado por el Tesauro Web y por las gafas semánticas) le sugiere muy probablemente encontrara lo que necesita.

 

Sin embargo la lógica universal de la búsqueda binaria y similares  está siempre latente en la metodología Darwin que la emplea en sus procesos de búsquedas internas por ejemplo para ubicar palabras, para descomponer grandes conjuntos de referencias (“clustering decomposition”, Descomposición de Agregados), exploración de Vecindades Semánticas, etc.  

 

 

 

Última actualización el Miércoles 21 de Julio de 2010 21:37  

Imágenes Polls

Poll Darwin

Darwin puede ser usado para
 

Newsflash

Poll Semántico I

La Semántica es la
 

Poll Semántico II

La Web Semántica es una
 

Poll Semántico III

El Conocimiento Humano es:
 

Poll Semántico IV

El Tesauro Web es
 

Usuarios Online

Tenemos 28 invitados conectado

Breadcrumbs

Home SSSE, Súper Buscadores Semánticos (I)