rivendel.org

Categorías:
Colegas:
Archivos:
<Noviembre 2018
Lu Ma Mi Ju Vi Sa Do
      1 2 3 4
5 6 7 8 9 10 11
12 13 14 15 16 17 18
19 20 21 22 23 24 25
26 27 28 29 30    
             
Documentos:

Primer articulín

Bueno, llega un par de días tarde para celebrar el segundo aniversario de Maelmori, pero al final he terminado mi regalo: un artículo con algo de teoría sobre recuperación de información. Sí, lo sé, los buscadores web utilizan algoritmos bastante más complejos que éste, pero por algún sitio hay que empezar.
2003-02-02 22:39 | Archivado en Documentos | 7 Comentario/s | URL permanente

Referencias (TrackBacks)

URL de trackback de esta historia http://rivendel.blogalia.com//trackbacks/5193

Comentarios

1
De: rvr Fecha: 2003-02-03 00:49

Imagino que Google usará un sistema similar a este ¿no?



2
De: mur0 Fecha: 2003-02-03 03:44

Por lo que sé los buscadores web aliñan ese tipo de técnicas con sistemas que ayudan a determinar lo útil que es cada web (determinante a la hora de ordenar esos miles de resultados), contando por ejemplo qué páginas son más enlazadas, desde cuáles son enlazadas...
En fin, parafraseando a algún colega, "un jaleo de puta madre".



3
De: Trucosdegoogle (Jorge) Fecha: 2003-02-04 02:43

Como conozco a Maelmori y me ha pasado esta dirección, permitidme un apunte: google utiliza las técnicas vectoriales de recuperación de información, unidas a la medida informétrica de cocitación científica.

En resumen, combina algunas "grandes" medidas:
- peso de una palabra clave en relación al documento en el que está (número total de palabras) y a la base de documentos que también contienen esta palabra clave.

- Aparición de la palabra clave: no es lo mismo que aparezca en el título que en el cuerpo del documento. Esto viene del mundo de las revistas científicas, donde sabemos que la mayor densidad informativa (lo que mejor cuenta de qué va un docuemnto) son el título, el resúmen y las palabras clave (etiqueta meta en la web) Aunque un google ya no mira la meta como tal, por haberse pasado la peña abusando de esta medida.

-La "sitación" o citas de sites. También viene del mundo bibliotecario, de las leyes de la informetría. Ver http://www.mail-archive.com/cadius@lista.cadius.net/msg00922.html

Más info sobre el ranking de google en (perdonadme la autocita) :
http://trucosdegoogle.blogspot.com

PD: Tremendo lo que está haciendo Maelmori, con dos co...



4
De: mur0 Fecha: 2003-02-04 03:07

Vaya, apuntes tan interesantes no sólo se permiten (aquí vale todo) sino que se agradecen. Aprovecho para preguntarte ¿sabes si su algoritmo de búsqueda es evolutivo? ¿tiene algún tipo de realimentación? (Aún no he tenido tiempo de consultar tu URL ;-)

PD: ¿Lo de Maelmori? ¡Un machote, oiga!



5
De: Maelmori Fecha: 2003-02-05 02:33

Alaaaaaa! (colorao) ;D
De todos modos el apunte que redacté era para una situación muy específica que se me había presentao en el curro: un catálogo de muebles en los que al buscar la palabra "cama" quería que me aparecieran las camas en primer lugar, y no las mantas y las mesillas. Como supondreis, un índice fulltext en ese sentido no vale pa ná. Y al efecto, el truco funciona estupendamente. Ahora, para hacerlo en plan "serio" hay muchos problemas de camino. Por ejemplo yo elimino los acentos a la hora de hacer las búsquedas, por que supongo que el redactor o el que realiza la búsqueda puede equivocarse al teclear (y, de hecho, lo hace con frecuencia). Esto tiene graves problemas de polisemia a los que no conviene prestarse, y que además no deberían surgir a la hora de hacer algo "serio". En definitiva, no es lo mismo buscar "pátina" que "patina". Doscientos documentos no relevantes en la búsqueda. Ruido documental de la leche. El cataclismo. Dimisión.
Como vivimos al límite, y hay que hacer en 10 días cosas que merecen un par de meses de trabajo, para que el cliente no me proteste por que no le funciona el buscador, lo he dejado así. Ahora, es algo a plantearse. Y como éste, hay cienes y cienes de problemas, a cada cual más complejo. Con los que me apetece meterme es con el tesauro y con la eliminación de palabras vacías. Pero paso a paso. El tesauro puede ser infernal.

Por cierto que me queda meterle operadores booleanos al asunto. A ver si me hago el ejemplo, y me pico un articulo más largo.

PD: Tremendas vuestras aportaciones, por cierto!



6
De: ULISES Fecha: 2003-11-14 22:39

Hola que bueno estos apuntes, tengo una base
de datos en



7
De: De: ULISES Fecha: 2003-11-14 22:55

Hola que bueno estos apuntes precisos, tengo una base
de datos en sqlserver y ocupo el componente fulltext y al respecto no encuentro el algoritmo que utiliza para esta recuperacion.¿Sera el modelo de vectores?hace 2 años me meti en este mundo de los IR, Cs de la Documentación, Bibliotecologia, bd documentales y cada vez me siento más ignorante
intente con las CD/ISIS
ocupa arboles-B y no los binarios, listas invertidas y todo eso.

y al respecto hay un algoritmo Peso del termino=Log "base2" (n/f)+1
n cantidad de registros de la base de datos.
f frecuencia de termino de la base de datos.
Y oracle con su herramienta fulltext, los buscadores, bdoo etc.

Bueno dejandonos de esto me gustaría generar un mapa conceptual y saber precisamente los algoritmos que ocupan cada una de estas tecnologias.

Encargo bibliografia expuesta y
direcciones web.

puntopki@yahoo.es




Nombre
Correo-e
URL
Dirección IP: 54.221.75.115 (d016a1f85d)
Comentario
¿Cuánto es: diez mil + uno?

© 2002 - 2003 rivendel.org - Publicado bajo licencia Creative Commons License
Powered by Blogalia Blogalia