Juan Chamero

Metodología Darwin

  • Aumentar el tamaño de la letra
  • Tamaño de letra predeterminado
  • Reducir el tamaño de la letra
Metodología Darwin

Introducción a la Metodología Darwin

Correo electrónico Imprimir PDF

Metodología Darwin

Para develar la información y el conocimiento oculto en la Web

Juan Chamero, Esta dirección electrónica esta protegida contra spambots. Es necesario activar Javascript para visualizarla , CEO Intelligent Agents Internet Corp, 2 de Abril 2010

Resumen

Se describe la Metodología Darwin de ordenamiento semántico y de recuperación de la Información e inteligencia oculta en grandes reservorios de datos como por ejemplo La Web. Darwin vale por Agentes Distribuidos para Recuperar la Inteligencia Web en inglés.

Basada en una Ontología Semántica Darwin construida a partir de un estudio exhaustivo del contenido Web a lo largo de una década y que se resume en un conjunto de “Conjeturas Darwin”, permite crear Mapas Conceptuales del Conocimiento Humano y mediante ellos posibilitar buscadores semánticos capaces de Encontrar Lo Que Uno Busca mediante Un Solo Clic y la inferencia de Patrones de la Conducta Humana

La Web como gigantesco Océano de contenido: En la Web existen actualmente 20.000 millones de documentos, cantidad que experimenta un crecimiento del orden del 10% anual. En esta gigantesca masa está representada lo bueno y lo malo de nuestra sociedad, desde la genialidad y lo sublime hasta lo torpe y lo perverso.

La Web como reservorio del CH, Conocimiento Humano “as_it_is”: No obstante todo sirve como muestra permanente y “en tiempo real” del estado de nuestra civilización y por ello decimos que en la Web reside una muestra casi en escala real del Conocimiento Humano y de nuestra actividad pasada y presente “as_it_is”, es decir, tal como se muestra.

La Web como paradigma de dos mundos: Pese a los intentos por controlarla ello ha demostrado ser imposible, la Web fue y sigue siendo abierta, libre, espontánea, democrática, pluralista, independiente e imprevisible. En ella coexisten dos mundos, el de los Sitios Web y el de la gente y ambos tienen sus maneras de pensar, de expresarse y sus códigos. Como en la muy no diferente realidad misma tenemos: por un lado El Orden Establecido de la Sociedad, el de las instituciones, las normas, lo político, económico, social, ética y moralmente correcto y por el otro La Gente con su prácticamente infinita variedad, espontaneidad, deseos, esperanzas, opiniones, críticas y adhesiones al Orden Establecido y nuevas ideas. Ambos mundos interactúan evolucionando a un ritmo sin precedentes como gigantesco laboratorio de posibles vías evolutivas.

Un Mundo de Palabras y Significados: A través de la Web hemos aprendido a “ver” que, a la larga, nuestro mundo real ha sido y es un mundo de “palabras” y de “significados”. Por palabras y significados evolucionamos o involucionamos, nos peleamos y hasta vamos a la guerra. Si ante una posible extinción de la raza humana quisiéramos dejar nuestra memoria dejaríamos un Tesauro, gigantesco reservorio semánticamente estructurado de palabras y significados pues las obras materiales serán barridas por el paso inexorable del tiempo. Si todos nos pusiéramos de acuerdo en el significado preciso de odio y amor, de justicia e injusticia, de paz y guerra, de libertad y esclavitud, de especulación y altruismo, de globalidad y localismos, de adhesión y subversión, de poder de policía y libre albedrío, iríamos progresivamente a una duradera y estable “Gran Paz”.

La Web Semántica: Por ello es de extrema importancia mirar a la Web como modelo, como laboratorio social pero para eso la Web necesita ser “Semántica”. Es decir, una Web conceptual, de significados, donde los documentos estén registrados por tema con un breve resumen de los mismos y un listado de sus conceptos clave, tal como se hacía y se sigue haciendo en las bibliotecas convencionales con todos los libros y ensayos que la integran. Esto es lo que el creador de la Web, Tim Berners Lee denominó Web Semántica.

La Web actual “no estructurada” versus la Web Semántica: Los buscadores convencionales hacen solo un primer paso “necesario” pero no “suficiente” para poder implementar semánticamente la Web: clasifican los documentos por las palabras y símbolos de su contenido que como veremos no son conceptos pero haciendo caso omiso de sus temáticas. Los conceptos están dispersos sobrenadando en el inmenso Océano Web en un número estimado de un millón de millones a razón de unos 50 conceptos diferentes por documento.

Buscadores Semánticos: Si el total de documentos de la Web estuviera indexado por los aproximadamente 10 millones de conceptos por lengua sería posible ubicar los mejores documentos que tratan cualquier temática en forma inmediata, digamos en un solo clic del “mouse” de nuestra computadora. Eso sería equivalente a extraer de la Web un Mapa Conceptual del Conocimiento Humano en un determinado momento, y en la práctica una Mega Enciclopedia unas 10.000 veces mayor y en mayor detalle que la Enciclopedia Británica. Este mapa podría alojarse en un chip especial a ser instalado en nuestras computadoras o incluso en unidades de telefonía móvil.

Tesauro Web: Es un término en pleno proceso de formación y muchas veces confundido con Diccionarios y Glosarios especializados. Básicamente es un listado de conceptos que pueden o no estar explicados, y que son reconocidos en cada lengua por su nombre “preferido” y que opcionalmente pose un conjunto de sinónimos. Los conceptos están relacionados con una estructura jerárquica de significados. La complejidad aún no dilucidada en el caso de los Tesauros Web reside en que los elementos de la estructura jerárquica (por ejemplo en Medicina las distintas ramas y temas médicas) son a su vez conceptos aunque de una categoría superior verificándose que todo asunto es un concepto pero no todo concepto es un asunto. En la Web los conceptos no necesitarían ser explicados en forma explícita pues ello implicaría en cierto modo un poder de policía de naturaleza cognitiva sobre los autores y lectores de documentos. En la Web se presupone que la explicación en sus diferentes “tonalidades” surge en forma indirecta de los nombres preferenciales de los conceptos. Y esto se entiende así: dado el nombre preferencial que en la jerga Darwin es el nombre más popular o adecuado para identificar un concepto se obtiene a través de una consulta a los buscadores una lista de documentos “Top” o referenciales que supuestamente son “Autoridades” en el concepto en cuestión y de su lectura se infiere el significado preciso del concepto y de sus tonalidades.

Diferencias entre Tesauro Web y Mapa Conceptual Web: Las diferencias son sutiles. El mapa hace referencia al contenido semántico de temas y conceptos contenidos en documentos específicos en la Web mientras que el Tesauro es algo más abstracto, sintetiza la estructura semántica del conocimiento en un momento dado sin necesariamente apuntar a un determinado conjunto de documentos. Idealmente podría haber develado de la Web el Tesauro Web, borrar de la Web todo el contenido hasta ese momento y a partir de allí comenzar a crear a partir de cero una nueva Web ideal y totalmente estructurada. En una palabra, el Tesauro nos permite crear bibliotecas virtuales del futuro perfectamente organizadas con edificios, pisos, salas, anaqueles, estantes virtuales, etc. y alojar en ellos los documentos entrantes por su temática. Los mapas son hoy necesarios para identificar la ubicación de los documentos en el espacio Web.

La Ontología Darwin: algunas de sus “fuertes” Conjeturas

Concepto: Una conjetura básica es: el ser humano expresa sus ideas mediante conceptos literariamente “enhebrados” con palabras y expresiones comunes de un lenguaje. Según Wikipedia un concepto es una unidad cognitiva de significado, una idea abstracta o mental que a veces se define como una "unidad de conocimiento".

Asuntos o Temas (subjects – themes/topics): Por otra parte los seres humanos documentan “asuntos” de interés generalmente a razón de un asunto dominante por documento, por ejemplo el asunto de los Impuestos, el asunto de la Programación en Java, el asunto de Estudios en el Exterior, etc. Dado que la definición de “asunto” no está aún bien tratada ni precisamente definida en los Diccionarios de Español recurramos a su equivalente en Inglés, como “lengua franca” de la Web. Busquemos en el Diccionario - Enciclopedia Libre “subject” (asunto) y de entre sus múltiples acepciones tomemos las que consideremos más afines a “asunto a tratar” que es el caso de la mayoría de los documentos alojados en el espacio Web (los documentos tratan temas mediante conceptos cuidadosamente elegidos), a saber:

Algo que debe ser dicho o hecho;

Algo que es tratado o señalado en una obra de arte;

Tema de una composición musical;

Base para una acción;

Una Causa;

Persona o animal objeto de un estudio científico o médico;

Término de una proposición acerca de la cual algo se afirma o niega;

La parte pensante o de significado de un objeto del pensamiento;

El ser humano identifica fácilmente conceptos: Antes de profundizar más en las temáticas documentadas volvamos al manejo práctico de conceptos en la vida cotidiana. Tomemos cualquier documento, una sección de un libro o de un capítulo del mismo, un artículo periodístico, un “paper” o trabajo de investigación, un folleto promocional, todos casos posibles de encontrar en la Web. Partiendo de la base de que en cada documento de una muestra podamos reconocer su “temática principal” a partir de la lectura de su título o de su lectura tratemos de identificar sus conceptos. Esto que a primera vista podría aparecer como tarea relativamente compleja y para la cual necesitaríamos un entrenamiento especial se convierte de hecho en una fácil tarea que muchos de nosotros realizamos cuando leemos marcando aquello que nos llama la atención o que, usando ya expresiones de la Teoría de la Información de Claude Shannon, nos trae mucha información, ya sea por lo raro, o por su especificidad o por el impacto que por equis causas produce en nuestra conciencia.

Características de la mecánica de conceptualización: Del trabajo realizado con estudiantes de la Carrera de Sistemas de los últimos años en varias universidades sobre “detección” de supuestos conceptos en decenas de miles de documentos surge lo siguiente:

1. Los supuestos conceptos eran efectivamente conceptos;

2. No todos los estudiantes detectan los mismos conceptos;

3. El conjunto de conceptos comunes para documentos de una misma temática es del 70% o más dependiendo de la temática;

4. El “resto” del cuerpo textual de los documentos está generalmente compuesto por palabras y expresiones consideradas “comunes” pertenecientes al lenguaje en el que estaban escritos los documentos y excepcionalmente a una jerga técnica dentro de cada lenguaje;

5. Para el grupo de expertos que supervisó el trabajo de detección de conceptos estos tenían significados íntimamente relacionados con la temática dominante de los documentos, verificando que perdían sentido o cambiaban de significado usados en otros contextos;

6. Aparecían otros conceptos que aparentemente poco o nada tenían que ver con los temas tratados pero que de alguna forma permitían o permitirían una identificación de los documentos, tales como fechas, códigos alfanuméricos, palabras y expresiones comunes en otros lenguajes, etc.;

7. Los conceptos estaban formados por el encadenamiento de una a varias palabras comunes y se instruyó a los estudiantes para que trataran de identificar los encadenamientos conceptuales de mayor cantidad de palabras. Así por ejemplo si aparecía “procesamiento en paralelo de Servicios Web”, toda esta cadena era un concepto mientras que “procesamiento en paralelo” y “Servicios Web” sería una concatenación de dos conceptos.

El cuerpo textual de los documentos como la yuxtaposición de dos cuerpos semánticos: Ya como resultado de esta primera experiencia realizada en el año 2003 se comenzó a alimentar la sospecha de que todo documento podría ser descompuesto en dos partes que se yuxtaponían a modo de mónada Yin-Yang: una parte literaria Yin o “blanda” formada por palabras y expresiones comunes y otra parte conceptual Yang o “dura” formada por conceptos que aparecían como muy similares a los “keywords” de la jerga Internet.

Hacia la mecanización de la conceptualización: Para avanzar en la comprobación de esta fuerte “Conjetura” que posibilitaría una conceptualización mediante agentes se procedió a procesar no ya unos pocos documentos sino miles para una misma temática. Lo interesante de esta experiencia era ver si existían patrones de documentación y sobre todo ver si era posible transferir a agentes la habilidad humana para reconocer conceptos. Para ello se seleccionaron miles de documentos de alta popularidad en los buscadores convencionales para determinados temas.

Cómo el ser humano crea nuevos conceptos: Para transferir a los agentes parte de la inteligencia humana necesaria para la detección de conceptos se partió de una hipótesis evolutiva de la documentación del conocimiento en base a “palabras”. Supongamos un humano primitivo que sepa leer y escribir con un muy reducido conjunto de palabras en, digamos 500 “palabras comunes” y que cognitivamente sepa identificar 300 temas de interés y 5.000 conceptos y que ese acervo le es suficiente para sobrevivir en un determinado estadio cultural. Supongamos que conoce el fuego, cocinar alimentos y el arte de la domesticación de animales, tareas agrícolas básicas y están a punto de entrar en la Edad del Hierro. Uno de ellos descubre una tecnología para el logro de más altas temperaturas, lo suficiente como para fundir minerales de alto contenido de hierro. Es de imaginar que este humano luego de años de éxitos y fracasos aspire a documentar sus logros. Su tecnología supone como mínimo la aparición de una decena de nuevos temas y no menos de varias decenas de nuevos conceptos a los que tendrán, él y los que le sigan, que asignarles “nombres” y definirlos. Podemos imaginar cómo haría: los nombres construidos en base a palabras y conceptos preexistentes o con “neologismos” no derivados de palabras y conceptos preexistentes Si el logro trasciende, los nuevos términos del acervo irán transformándose en sus nombres y en sus significados y se irán incorporando, posiblemente en forma explosiva, nuevas temáticas y nuevos conceptos. Este modelo nos sugiere la clave para preparar a los agentes a que aprendan a detectar conceptos.

Cómo el hombre ha construido una gran diversidad semántica a partir de unos pocos “ladrillos” semánticos: En efecto, tomando como modelo de nuestra sociedad a lo que vemos en la Web, podemos cuantificar lo que daríamos en llamar la “Variedad Semántica” del mundo actual -extraída de un universo de unos 20.000 millones de documentos-: de 300.000 a 500.000 temas explicados por medio de unos 10.000.000 de conceptos por lengua. ¡Y todo esto se ha logrado documentar usando una Jerga de no más de 3.000 palabras y expresiones comunes por lengua!. Es decir, el núcleo básico de las jergas con las que nos comunicamos los humanos crece muy poco a diferencia del mundo de los temas y de los conceptos.

Cómo trabajan los agentes Darwin: Este descubrimiento fue de trascendental importancia para la construcción y perfeccionamiento de la Metodología Darwin. En efecto, para un agente que tiene como misión analizar de decenas de miles a millones de documentos, es importante “saber de antemano” que para cada lengua y jerga existe una distribución de frecuencia de uso de cada una de las palabras. Un primer análisis que realiza un agente de la familia Darwin es el siguiente: de millones de documentos que tratan de una disciplina a investigar, por ejemplo Medicina, calcula la distribución de cada una de las palabras y expresiones comunes de la lengua en la cual están redactados los documentos y en una segunda etapa la distribución de todos los posibles “pares”, “ternas”, “cuadr-uplas” y quint-uplas de palabras. A partir de estas distribuciones una serie de algoritmos de análisis semántico Darwin detectan los potenciales conceptos. Al no depender, estadísticamente hablando, la frecuencia de uso de una palabra o de un secuencia de palabras considerada común, de la temática tratada, la aparición de una palabra o secuencia de palabras con una frecuencia singularmente mayor que la esperada, para documentos que supuestamente tratan de una misma temática hace a la palabra o encadenamiento de palabras candidata a ser un concepto para esa temática. Este fenómeno asimilable a una especie de “resonancia semántica” será pues crucial para el eficaz y preciso trabajo de los agentes.

La Conjetura de la Especificidad: Partiendo pues de la base de que es perfectamente posible crear y entrenar agentes para que detecten potenciales conceptos en forma muy eficiente se plantea ahora investigar lo que luego dará lugar a la Ley de Especificidad y a una forma lógica de documentación a la que tienden los humanos. La Ley de Especificidad nos dice que los conceptos se corresponden, estadísticamente, con las temáticas tratadas y en una relación “biunívoca”, es decir: cada tema se relaciona estrechamente con un conjunto específico de conceptos, digamos algo así como su “huella digital semántica” y no con otro y recíprocamente este conjunto de conceptos no se correlaciona con otro tema. A modo de ejemplo y para una muestra de muchos documentos de Medicina el conjunto de conceptos de documentos centrados en cardiología tendría de escasa a nula superposición con conceptos de documentos centrados en urología o en dermatología. Esto es otro descubrimiento trascendente pues posibilita, a la larga, develar la inteligencia semántica de cualquier disciplina del Conocimiento Humano documentada en la Web.

Esta especificidad está íntimamente relacionada con la jerarquía semántica de los temas y representó para la Metodología Darwin otro salto “cualitativo” en el análisis semántico de la Web. La segunda fuerte conjetura establecía que los seres humanos tienden a documentar específicamente y en forma jerárquica o “arbórea”. Lo primero fue relativamente fácil de comprobar en al menos dos grandes disciplinas: Computación y Arte. En cuanto a la jerarquización temática se comprueba que “casi siempre”, estadísticamente, los grandes temas tienen mayor presencia que los derivados y así siguiendo hasta sus máximos niveles de especificidad y a su vez se comprueba que los conjuntos de conceptos temáticos tienen un cierto grado de superposición conceptual con temas inmediatamente arriba en la jerarquía (más generales), con temas inmediatamente por debajo de la jerarquía ( de mayor detalle o especificidad) y con temas “colaterales” o de jerarquía similar y que estas superposiciones de desvanecen rápidamente “hacia arriba” y por debajo de la escala jerárquica. En números si la antes denominada huella digital de un determinado tema fuera de 40 conceptos, es posible que 5 de ellos sean empleados en un nivel superior, 7 en un nivel inferior y que 4 de ellos coexistan en niveles colaterales. Evidentemente a nivel conocimiento de los autores de los documentos se cumple la “herencia” conceptual en el sentido que es muy probable que quien documenta, ya sea a un nivel alto o bajo conozca los conceptos inferiores o superiores respectivamente pero se auto limita a su nivel jerárquico específico en su rol de documentador.

Árboles, Bosques y Autoridades: Lo de arbóreo es algo más difícil de comprobar pero es la tendencia de los grandes temas del conocimiento humano a medida que se consolidan. En Teoría de Grafos, un árbol es un grafo en el que dos vértices cualesquiera están conectados por exactamente un camino mientras que un bosque sería un grafo en el que dos vértices cualesquiera están conectados por como máximo a través de un camino. Si todas las disciplinas de la Web fueran árboles podríamos hablar del bosque Web. Los árboles Web deben verse como árboles lógicos invertidos con la “raíz” o “temática más general” arriba de todo y desde allí abriéndose jerárquicamente hacia niveles de jerarquías inferiores hasta llegar a las “hojas” o temas más específicos y de forma tal que una hormiga que parte de la raíz pueda llegar a cualquier nodo solo a través de un único camino y siempre bajando. En la práctica no todas las disciplinas son árboles sino a lo sumo arborescencias y/o arbustos donde algunos nodos derivan de más de un “ancestro” y donde pueden existir conexiones entre nodos del mismo nivel jerárquico. El árbol del Arte en el Mundo tiene 13 niveles desde la raíz hasta sus hojas más alejadas.

El concepto de “Autoridad” es también mu importante en la Web. Siendo Internet un medio esencialmente interactivo y especialmente adaptado por operar dentro de –e inducir a- una sociedad pluralista, abierta y democrática, la Autoridad debe ser vista como una autoridad basada en el conocimiento. Hasta ahora los Sitios Web de máxima “popularidad” temática son autoridades cognitivas, y son las que a la larga imponen las palabras, los conceptos y sus definiciones. Las Autoridades son lo primero que los agentes Darwin tratan de detectar pues son estas autoridades las que no solo documentan de una forma muy especial sino las que crean y nombran a los temas. Tratemos de profundizar en esto que parece un acertijo.

El nombre “preferido” de los conceptos: Muchas veces existen temas de los cuales sabemos que existen, que muchas personas físicas y jurídicas lo han tratado pero no sabemos exactamente bajo que nombre buscarlo. Estos temas los tenemos sin embargo “in mente” y basta que encontremos el nombre justo para que nos demos cuenta de que efectivamente ese deber ser el nombre “adecuado” y más aún si ha sido emitido por un gran peso de autoridad, medido por ejemplo en cuantía de popularidad de sitios de reconocida autoridad, por ejemplo universidades, centros de Investigación, Agencias de Gobierno, ONGs, Asociaciones Profesionales, etc. Un ejemplo reciente es la aplicación de la Metodología Darwin para encontrar el nombre bajo el cual se trata la crisis de la prensa escrita en base a papel. Un agente Darwin guiado por un humano recorrió experimentalmente temas supuestamente afines hasta que a poco de navegar por el “Océano Web” entró en resonancia con el concepto “newspapers are dying” del cual hay en Google más de 61.00a referencias siendo las 10 Top documentos que tratan ese tema con reconocida autoridad.

DBE, Documentos Bien Escritos: Por otra parte las Autoridades generalmente documentan bien, de acuerdo a una especie de fórmula similar a la de las FBF, “Formulas Bien Formadas” de la Lógica Proposicional. Estos DBE se caracterizan por lo siguiente:

1. Son generalmente monotemáticos o de sub temas derivados de un tema dominante común;

2. Son conceptualmente muy específicos;

3. Dentro de esta especificidad tienen escaso contacto semántico, el mínimo, con temas más generales y más detallados y con temas colaterales;

4. Los temas están explicitados con sus nombres preferidos o adecuados;

5. Sus conceptos son muy específicos en cuanto a sus nombres, en una palabra usan los nombres más adecuados;

6. Las dispersiones estadísticas en lo semántico entre documentos del mismo tema y para Autoridades, es mínima;

7. Muy raramente se usan conceptos ajenos a las jerarquías temáticas dominantes o pertenecientes a otras disciplinas.

Última actualización el Miércoles 13 de Agosto de 2014 22:50
 

Imágenes Polls

Poll Darwin

Darwin puede ser usado para
 

Newsflash

Poll Semántico I

La Semántica es la
 

Poll Semántico II

La Web Semántica es una
 

Poll Semántico III

El Conocimiento Humano es:
 

Poll Semántico IV

El Tesauro Web es
 

Usuarios Online

Tenemos 63 invitados conectado

Breadcrumbs

Home