Bueno, llega un par de días tarde para celebrar el segundo aniversario de
Maelmori, pero al final he terminado mi regalo: un artículo con algo de
teoría sobre recuperación de información. Sí, lo sé, los buscadores web utilizan algoritmos bastante más complejos que éste, pero por algún sitio hay que empezar.
|
5
|
| De: Maelmori |
Fecha: 2003-02-05 02:33 |
|
|
Alaaaaaa! (colorao) ;D
De todos modos el apunte que redacté era para una situación muy específica que se me había presentao en el curro: un catálogo de muebles en los que al buscar la palabra "cama" quería que me aparecieran las camas en primer lugar, y no las mantas y las mesillas. Como supondreis, un índice fulltext en ese sentido no vale pa ná. Y al efecto, el truco funciona estupendamente. Ahora, para hacerlo en plan "serio" hay muchos problemas de camino. Por ejemplo yo elimino los acentos a la hora de hacer las búsquedas, por que supongo que el redactor o el que realiza la búsqueda puede equivocarse al teclear (y, de hecho, lo hace con frecuencia). Esto tiene graves problemas de polisemia a los que no conviene prestarse, y que además no deberían surgir a la hora de hacer algo "serio". En definitiva, no es lo mismo buscar "pátina" que "patina". Doscientos documentos no relevantes en la búsqueda. Ruido documental de la leche. El cataclismo. Dimisión.
Como vivimos al límite, y hay que hacer en 10 días cosas que merecen un par de meses de trabajo, para que el cliente no me proteste por que no le funciona el buscador, lo he dejado así. Ahora, es algo a plantearse. Y como éste, hay cienes y cienes de problemas, a cada cual más complejo. Con los que me apetece meterme es con el tesauro y con la eliminación de palabras vacías. Pero paso a paso. El tesauro puede ser infernal.
Por cierto que me queda meterle operadores booleanos al asunto. A ver si me hago el ejemplo, y me pico un articulo más largo.
PD: Tremendas vuestras aportaciones, por cierto!
|