Apache Lucene

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Apache Lucene
Lucene logo
Entwickler Apache Software Foundation
Aktuelle Version 4.9.0
(25. Juni 2014)
Betriebssystem plattformunabhängig
Programmier­sprache Java
Kategorie Programmbibliothek
Lizenz Apache-Lizenz
Deutschsprachig Nein
lucene.apache.org

Apache Lucene ist eine Programmbibliothek zur Volltextsuche und ein Projekt der Apache Software Foundation.

Apache Lucene ist freie Software. Im World Wide Web realisiert Lucene beispielsweise die Suchfunktion der Wikipedia.[1] Enthalten ist Lucene auch in Software von EMC.[2]

Ein Beispiel für die Leistungsfähigkeit und Skalierbarkeit von Lucene liefert insbesondere Twitter.[3] Da Lucene Open Source ist, nutzte das Unternehmen zur Anpassung an seinen Bedarf nach Echtzeit und erstellte auf dieser Grundlage eine komplette Architektur blockadefreier Abläufe mittels Java.

Geschichte[Bearbeiten]

Lucene wurde von Doug Cutting entwickelt und war seit 1997 zunächst über SourceForge erhältlich.[4] Der Name Lucene ist der zweite Vorname von Doug Cuttings Ehefrau.[5]

2001 wurde Lucene ein Teil des Jakarta-Projekts und 2005 ein Hauptprojekt der Apache Software Foundation. Aus dem Projekt Apache Lucene gehen gelegentlich separat weitergeführte Projekte hervor.

Projekt[Bearbeiten]

Lucene Core
Der Kern des Projekts Lucene, Lucene Core oder kurz Lucene, früher auch Lucene Java genannt, ist eine Programmbibliothek, die in der Programmiersprache Java verfasst ist.
Lucene erstellt einerseits einen Index aus Dateien, der etwa ein Viertel des Volumens der indexierten Dateien hat.[6] Zum Anderen liefert Lucene anschließend Suchergebnisse mit Rangliste, wofür mehrere Suchalgorithmen zur Verfügung stehen.
Lucene.Net
Lucene.Net ist eine Übersetzung von Lucene in die Programmiersprache C# mit Anpassung der Programmierschnittstelle an die .NET-Plattform.
Lucy
Lucy ist eine Portierung von Lucene in die Programmiersprache C für Sprachanbindungen dynamischer Programmiersprachen wie Perl.
PyLucene
PyLucene ist eine Erweiterung von Python um einen Wrapper mit Java-Laufzeitumgebung für Lucene.[7]
Droids
Droids ist ein Framework für Bots/Crawler.
Solr

Solr ist ein in Lucene enthaltenes Servlet für entsprechende Container wie Apache Tomcat. Solr wurde ursprünglich von CNET entwickelt und Solar genannt.[8] Der Name war eine Abkürzung für Search on Lucene and Resin.[9] Der Download von Solr umfasst als Beispiel eine Konfiguration mit Jetty.
Solr kommuniziert über das Hypertext Transfer Protocol. Mittels HTTP POST können verschiedenste Dateiformate von XML über JSON bis PDF erfasst und auch Dokumente erstellt werden.[10] Abfragen erfolgen mittels HTTP GET.
Solr ist die populärste Enterprise-Suchmaschine.[11]
Tika
Tika gehörte früher zum Projekt Lucene, wird von Solr genutzt und ist ein Parser. Er extrahiert Metadaten oder strukturierten Text aus einer Reihe von Dokumentformaten mittels spezialisierter (möglichst ohnehin existierender) Bibliotheken wie Apache PDFBox oder Apache POI, die einheitlich über Tika angesprochen werden und automatisch ausgewählt werden können.
Nutch
Nutch gehörte früher zum Projekt Lucene und basiert auf Solr.

Außerhalb des Projekts wurden weitere Derivate von Lucene erstellt.[12]

Quellen[Bearbeiten]

  1. Version. Wikimedia Foundation. Abgerufen am 6. Januar 2012.
  2. Press Release. EMC. 27. Oktober 2010. Abgerufen am 6. Januar 2012.
  3. Twitter Engineering: Twitter Search is Now 3x Faster. Twitter. 6. April 2011. Abgerufen am 6. Januar 2012.
  4. Ten years of the Lucene search engine at Apache. Heise. 27. September 2011. Abgerufen am 6. Januar 2012.
  5. LuceneFAQ. Apache Software Foundation. Abgerufen am 6. Januar 2012.
  6. Apache Lucene - Features. Apache Software Foundation. Abgerufen am 6. Januar 2012.
  7. Welcome to PyLucene. Apache Software Foundation. Abgerufen am 6. Januar 2012.
  8. FAQ - Solr Wiki. Apache Software Foundation. Abgerufen am 6. Januar 2012.
  9. Interview with Ian Holsman of Relegence (AOL). Lucid Imagination. Abgerufen am 6. Januar 2012.
  10. Solr tutorial. Apache Software Foundation. Abgerufen am 6. Januar 2012.
  11. DB-Engines Ranking von Suchmaschinen. Abgerufen am 4. März 2013.
  12. LuceneImplementations. Apache Software Foundation. Abgerufen am 6. Januar 2012.

Literatur[Bearbeiten]

  • Manfred Hardt, Fabian Theis: Suchmaschinen entwickeln mit Apache Lucene, Entwickler.Press, 2004.
  • Erik Hatcher et al.: Lucene in Action, Manning, 2005 (über Lucene 1.4), 2nd ed. 2010 (über Lucene 3.0).
  • Florian Hopf: Flexible Suche mit Lucene in Java aktuell, Ausgabe 4-2013, S. 31ff

Weblinks[Bearbeiten]