Benutzerin:JakobVoss/InformationRetrieval

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Open Source Information Retrieval systems[Bearbeiten | Quelltext bearbeiten]


Stemming[Bearbeiten | Quelltext bearbeiten]

Quellen:

(z.Z: 2321 Dokumente zu "Stemming", 64 zu "Stemming AND spanish")

Un stemmer es un programma... de reduccion morfologica.

=> Sciencie experimental: invent an algorithmo and test it.

Búsqueda en Google[Bearbeiten | Quelltext bearbeiten]

http://ir.iit.edu/~abdur/research/conflation/AIRE-Stemming-System.html: "Pickens [9] later expanded that research by examining the effects of using a combination of kstem and porter with co-occurrence information on precision/recall metrics and found a statistical improvement." (also more background)

Software[Bearbeiten | Quelltext bearbeiten]

Only freely availabe software, prefered GPL:

http://snowball.tartarus.org/ : Snowball es una pequeña lenguaje de programación para el manejo de strings que permite más facil implementar algoritmos de stemming. Puede genear codigo en ANSI C y Java.

  • SWISH-E contains stemmer(s?) too.

Artículos[Bearbeiten | Quelltext bearbeiten]

Conferences:[Bearbeiten | Quelltext bearbeiten]

¿Qué es stemming?[Bearbeiten | Quelltext bearbeiten]

lgoritmo de stemming de Porter[Bearbeiten | Quelltext bearbeiten]

(facil de traducir para diferentes idiomas)

[C](VC)m[V]

n-gram[Bearbeiten | Quelltext bearbeiten]

n=2: digram Indice de similaridad: ISa,b=2(nº de digramas comunes)/[(nº de digramas en palabra a)+(nº de digramas en palabra a)], .

Si el indice de dos palabras superior un valor => son las mismas

- cojer una palabra => forma canonica

word bigrams ("home run"), character bigrams

  • Phrase recognition:
    • Statistical
    • Part of speech tagging
    • Syntactic parsing (parse tree)