Wikipedia Diskussion:Technik/Datenbank/Download

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Downloadgeschwindigkeit sinkt stark ab[Quelltext bearbeiten]

Es ist mir nie möglich, den kompletten http://download.wikimedia.org/dewiki/latest/dewiki-latest-pages-articles.xml.bz2 herunterzuladen, weil die Übertragungsrate im Verlauf des Downloads einfach zu schwach wird. Lade in nem Uninetzwerk, die Bremse sitzt also beim Wiki-Server - nen Tip? Danke!

-- Zetode 17:46, 14. Mai 2009 (CEST)[Beantworten]

Dateinamen im HTML Download[Quelltext bearbeiten]

Im HTML Download sind die Dateinamen verändert und eine Pfadstruktur nach Anfangsbuchstaben entsteht.

Einige Beispiele:

de/-/r/f/Benutzer_Diskussion~-RF-_bc03.html

de/-/2E/z/Benutzer_Diskussion~-.ZacK.-_0b22.html

de/0/0/7/007_James_Bond_greift_ein_9a9e.html

de/0/0/_/00_Schneider_?_Jagd_auf_Nihil_Baxter_a8f0.html

Meine Frage: was bedeutet die vierstellige Zahl nach dem Unterstrich - Zeitangabe? Version? Oder was ganz anderes? --Lorraineflack 10:00, 7. Dez. 2007 (CET)[Beantworten]


Nach SQL import, Artikel gelöscht[Quelltext bearbeiten]

In meiner Wiki habe ich verschieden Artikel erstellt, dann spielte ich Wikipedia in meine Datenbank, plötzlich sind meine Ursprüngliche Artikel Weg. Wie kann ich das umgehen? andy

Nur mit einigem Aufwand, eigentlich fast gar nicht. Der Dump enthält als einen der ersten Befehle DROP TABLE xyz und CREATE TABLE xyz mit vollständigen Tabellendefinitionen. Man müsste diese Befehle aus dem Dump rausnehmen, bevor man ihn einspielt. Und selbst dann werden sich wahrscheinlich die Artikel-IDs gegenseitig in die Quere kommen. Daher sollte man wirklich für eigene Artikel und den Dump zwei getrennte Datenbanken aufsetzen. --Echoray 17:45, 28. Dez 2004 (CET)
ok, vielen dank. andy

Nur den Index herunterladen?[Quelltext bearbeiten]

Gibt es eine Möglichkeit, nur den Index der Datenbank herunterzuladen? Ich möchte von einem Programm aus ausschließlich SQL Abfragen stellen, die zurückgeben, ob zu einem bestimmten Begriff ein Artikel in Wikipedia vorhanden ist, oder nicht. Da wäre es ja überflüssig die ganze Datenbank mit fast 400 Mb herunterzuladen, wenn auch ein Index mit ein paar hunder kB ausreichen würde.

Es gibt die Datei http://download.wikimedia.org/wikipedia/de/all_titles_in_ns0.gz - das ist allerdings kein SQL-Dump, sondern einfach eine Textdatei mit den Titeln aller Artikel in der deutschen Wikipedia. --Echoray 17:14, 10. Jun 2005 (CEST)
Vielen Dank! Genau danach habe ich gesucht. Eine Textdatei reicht zur Suche völlig aus.
Der Link funktioniert leider nicht mehr!

importDump.php[Quelltext bearbeiten]

Kann es sein, dass die Datei im MediaWiki 1.4.10-Release (stable) nicht mit drin ist? Ggf auf der Seite darauf hinweisen --M3ax 01:30, 30. Sep 2005 (CEST)

20050921-Dump[Quelltext bearbeiten]

Mir kommt der 20050921-Dump zu klein vor. Ist er defekt

Der neueste Dump ist mit bzip2 komprimiert. Dieses Programm schafft eine höhere Kompression. Die Dateien müssten in Ordnung sein. --Echoray 11:29, 1. Okt 2005 (CEST)

Nach Import und refreshLinks noch andere Spachen im Artikel[Quelltext bearbeiten]

Nach mehreren Versuchen mit dem Import der article.xml Datei vom 20.10.2005 bin ich etwas am Rätseln. Die Datei wurde mit importDump.php und anschliessendem refreshLinks.php geladen. Leider habe ich immer noch das Problem, dass die Seiten noch Inhalte/Verweise in anderen Sprachen aufweisen.

Z.B. bei 'Aluminium' erscheint auf der Seite:

ar:ألمنيوم ca:Alumini cs:Hliník da:Aluminium en:Aluminium eo:Aluminio es:Aluminio et:Alumiinium fi:Alumiini fr:Aluminium gd:Alman he:אלומיניום hr:Aluminij hu:Alumínium id:Aluminium io:Aluminio is:Ál it:Alluminio ja:アルミニウム ko:알루미늄 ku:Bafûn lt:Aliuminis lv:Alumīnijs mi:Konumohe nl:Aluminium nn:Aluminium no:Aluminium pl:Glin pt:Alumínio ru:Алюминий simple:Aluminium sl:Aluminij sr:Алуминијум sv:Aluminium th:อะลูมิเนียม uk:Алюміній vi:Nhôm zh:铝

Kann man das irgendwie beheben?

Danke. --mschubi


Diese Interwikilinks sind Teil des Artikeltextes. In der Online-Wikipedia werden sie herausgefiltert und in der Seitenleiste angezeigt, weil die zustaendige Datenbanktabelle "interwiki" die Informationen ueber intern verlinkbare andere Projekte bereitstellt. Ohne diese Informationen wird "[[en:Aluminium]]" als interner Link interpretiert. Die interwiki-Tabelle wird zum Download angeboten, in der Version, wie sie in der Online-Wikipedia verwendet wird.
Falls du dagegen die Interwikilinks komplett aus den Seiten entfernen willst, sehe ich zwei Moeglichkeiten, die beide umstaendlich sind:
  • Entferne diese Links aus allen Artikelquelltexten. Das ist z.B. mit reinem SQL moeglich, aber ziemlich umstaendlich, da du die Links fuer alle Sprachen korrekt identifizieren musst. Das muesste dann mit jedem neuen Dump gemacht werden. Hier waere es wahrscheinlich am geschicktesten, ein externes Filterprogramm zu schreiben, dass den Dump vor oder waehrend des Imports modifiziert (in der Art "gunzip -c dump.xml.gz | removeInterwiki | mysql").
  • Mit einer (mir unbekannten) Modifikation der php-Dateien laesst sich erreichen, dass die Interwikilinks zwar korrekt aus dem angezeigten Seitentext entfernt wird, aber nicht in der Seitenleiste erscheinen. Das muesste "nur" mit jedem Update der Software gemacht werden.
--SirJective 13:52, 3. Nov 2005 (CET)

Bilderdownload als Thumbs[Quelltext bearbeiten]

Währe es möglich die Bilddatein auch als verkleinerte Thumbnails angeboten zu bekommen? Die 25.2 GB sprengen einfach etwas meine DSL-Leitung zumal man ja die Commons auch noch braucht. Kolossos 16:22, 24. Nov 2005 (CET)

recount.sql nicht mehr enthalten?[Quelltext bearbeiten]

Ist recount.sql nicht mehr in v1.5 enthalten? Erstens finde ich dies in meiner Installation nciht, zweitens hab ich diesen Satz ergoogled: "(bug 3734) Swapped out obsolete recount.sql with initStats.php". --Nyks 02:19, 10. Jan 2006 (CET)

Bilder in Wikipedia einspielen[Quelltext bearbeiten]

Ich habe folgendes Problem: Ich habe es geschafft die 25GB Bilder herunterzuladen, und habe das tar-Archiv auf meinem Linux Server unter /var/www/mediawiki/images/ entpackt.

Dann habe ich die xml Datei heruntergeladen und mit bzcat eingespielt.

Was muß ich sonst noch machen um die Bilder anzeigen zu lassen?? Das funktioniert nämlich nicht. Wenn ich den Wikipedia über einen Browser aufrufe werden die Bilder nicht angezeigt!

Danke schon mal für die Hilfe Gruß Flave

Der reinste Entwicklerjargon :))[Quelltext bearbeiten]

Aber ehrlich. Ich hab das grade mal etwas lexikalischer zu formulieren versucht; dass die Performance "beim Teufel" ist, erzähle ich einem Kollegen auch am Telefon, allerdings muss das nicht unbedingt hier sein (finde ich) -andy 217.91.47.231 10:29, 16. Feb 2006 (CET)

Link zu einer neuen Seite mit ausführlicher Beschreibung eingefügt[Quelltext bearbeiten]

Nach SIEBEN Tagen nervtötender Arbeit, um mir als hübsch anwendungsbezogener Normalo eine Offline-Wikipedia zu erstellen, habe ich ein Anleitung für Surf&Email-Windows-Nutzer geschrieben und hoffe, dass sie verständlich ist. Grüße, Nasenbart

Und wo kann man die nachlesen? --Gruss Mabba 04:31, 10. Mai 2010 (CEST)[Beantworten]

Was mache ich Falsch[Quelltext bearbeiten]

Hallo, ich habe heute alles installiert und dann die Dump Datei(dewiki-20060220-pages-articles.xml) eingespielt. Dannach habe ich von meinem Rechner den Suchindex erneuern lassen (per rebulidtextindex.php) Sowohl der Import als auch das Neurechnern des Index werden ohne Fehlermeldung durchgeführt.

Wenn ich aber jetzt aber einen Artikel suche z.b. Berlin bekomme ich im internet gleich Berlin angezeigt. In meiner lokalen Variante bekomme ich dann zwar auch eine suchseite, die ist aber deutlich anders als die von der Internetversion.

Anderes Beispiel:

Wenn ich im internet nach meiner Heimatgemeinde Sande (Kreis Friesland) suche, bekomme ich eine seite in der alle Gemeinden in dennen Sande vorkommt angezeigt.

Suche ich jetzt lokal bekomme ich nicht diese Seite.

Wer kann mir helfen?

Mathematische Formeln?[Quelltext bearbeiten]

Bei meiner lokalen wiki-installation werden die mathematischen Formeln nicht angezeigt. Fehlt da ein Plugin?

Kann Dump nicht entpacken[Quelltext bearbeiten]

Ich habe mir gerade folgende Dateien runtergeladen:

  • dewiki-20060501-pages-articles.xml.bz2
  • dewiki-20060515-pages-articles.xml.bz2

Beim Entpacken mit WinRar und Biz2 tritt bei beiden Dateien der Fehler Unexpected end of archive auf. Hat jemand eine Idee woran das liegen und wie ich das beheben kann?

Die Datei dewikiquote-20060527-pages-articles.xml.bz2 konnte ich übrigens problemlos entpacken.

Gruß --OHVChris75 15:24, 2. Jun 2006 (CEST)

Mac Software[Quelltext bearbeiten]

Guten Abend!

Ich weiß nicht, ob ich hier richtig bin.

Ich wollte nur mal nachfragen, ob jemand weiß, ob die Wiki Downloads auchirgendwo für Mac OS X verfügbar sind.

Leider konnte ich dazu in den FAQ keine Infos finden, wohl aber darüber, dass man gesperrt wird, wenn man zuviel und zu oft stöbert.

Ich glaube, dass mir das vor 2 - 3 Wochen auch mal passiert ist, es sei denn, die Seite hätte damals wirklich jeden Abend Schwierigkeiten gehabt, wovon ich allerdings nicht ausgehe.

Leider gibt es überall nur Hinweise für Windwos, zu Mac habe ich dazu nichts gefunden.

es liegt aber nicht in meiner Absicht, den Server regelmäßig mit Anfragen zuzuspammen, aber ich stöbere halt gern im Wiki und wenn das anders auch funktionierte, wäre ich sehr froh drüber.

Vielleicht hat ja hier jemand Infos, wo ich diese Software herbekommen könnte.

Danke im Voraus.

DNA 21:37, 26. Sep 2006 (CEST)


static und dump[Quelltext bearbeiten]

Wer ist denn für dump.wikipedia.org bzw static.wikipedia.org verantwortlich? Bei mir funktioniert das browsen der "static wikipedia" nicht. [1]} --84.56.145.254 15:11, 24. Feb. 2008 (CET)[Beantworten]

Gibt es bei der Verwendung der html-Version etwas zu beachten?[Quelltext bearbeiten]

Hallo zusammen,

Ich habe die htm-Version heruntergeladen und die Datei wikipedia-de-html.7z entpackt. Allerdings funktioniert weder die Suche, noch kann ich einem Link folgen. Ich erhalte stets die Fehlermeldung, dass die Seite nicht gefunden wurde. Was mache ich falsch? Welchen Zweck haben die Dateien html.lst und skins.lst ? Vielen Dank im Voraus --Horsefreund 16:45, 9. Mär. 2008 (CET)[Beantworten]

Verschieben nach Wikipedia:Herunterladen[Quelltext bearbeiten]

Würde was dagegen sprechen?

Hi, was ist bei den Dumps eigentlich der Unterschied zwischen:

  • All pages with complete page edit history (.bz2)
  • All pages with complete edit history (.7z)

Das Packformat ist mir schon klar, aber was ist der Unterschied zwischen "page edit history" und "edit history"? Es muss ja einen geben, nur das "andere" packen kann ja bei de.wp nicht länger als 9 Tage dauern... --APPER\☺☹ 18:43, 8. Nov. 2008 (CET)[Beantworten]

Bilder unauffindbar[Quelltext bearbeiten]

Hallo, wie kann ich die Bilder mitdownloaden? Ich finde den passenden Link nicht. Danke! --86.33.145.32 16:04, 15. Mär. 2009 (CET)[Beantworten]

ich brauche dateien mit den endungen .ao1 .ao2 .dba .idx .ifo wie bekomme ich die?

Siehe [2] -- 91.49.38.186 21:52, 14. Jan. 2012 (CET)[Beantworten]

Download von Hauptkategorien[Quelltext bearbeiten]

Um das komplette Wikipedia-Archiv herunterzuladen braucht man Geduld und muss auf eine gute Bildqualität verzichten. Meist benötigt man nicht das komplette Wiki, sondern bestimmte Teile, z.B. für eine Referatsvorbereitung. Daher wäre es interessant, wenn man die Möglichkeit hätte nur eine Hauptkategorie herunterzuladen. Da diese Files kleiner wären, könnten sie mit entsprechend besseren Bilddaten ausgestattet werden um diese mit Wikitaxi offline zu lesen.

SSch--

html-Dump Wiki.de[Quelltext bearbeiten]

Wann ist mit einem neuem html-Dump der deutschen Wikipedia zu rechnen? Als Folge davon würde auch mal wieder eine neue Version für den Mobipocket-Reader kommen.

JR

Soweit ich weiß wurden die HTML-Dumps eingestellt. Ich kann vllt. mal einen generieren, wenn ich Zeit und Rechenleistung haben -- FlySoft (Diskussion) (18:39, 16. Jul 2012 (CEST), Datum/Uhrzeit nachträglich eingefügt, siehe Hilfe:Signatur)

Fehlerhafter Link[Quelltext bearbeiten]

Klickt man auf den Link für die HTML-Version, erscheint nur eine dubiose Liste mit seltsamen Extensions, aber keine wikipedia.html oder sowas ähnliches, was man downloaden kann!

Schön, daß man hier so ausführliche Antworten bekommt!

HTML Dump liefert nur kaputte Dateien?![Quelltext bearbeiten]

Ich habe jetzt schon zum dritten Mal versucht, den HTML-Dump herunterzuladen, aber es gibt andauernd Verbindungsabbrüche (0 Bytes/Sekunde für mehrere Minuten) und die nach 24 Stunden dann endlich fertige 7z-Datei hat an diversen Stellen CRC-Fehler, die sich nicht korrigieren lassen. Das Problem habe ich sowohl bei der deutschen als auch der englischen Version. Was mache ich falsch?

-- Niwax 17:47, 4. Sep. 2010 (CEST)[Beantworten]

Hallo ThurnerRupert, kannst du mehr zu Kiwix schreiben? --Ziko 17:25, 7. Mai 2011 (CEST)[Beantworten]

Besteht Interesse, die Torrent-Links von Burnbit einzufügen? En macht das schon und es funktioniert recht gut. Wenn niemand die Dateien seedet, lädt man vom Wikimediaserver, so dass man immer eine gute Geschwindigkeit hat. Laden mehrere gleichzeitig, werden so die Server entlastet. --(Saint)-Louis (Diskussion) 19:34, 2. Jul. 2012 (CEST)[Beantworten]

allerdings nicht in der allerneuesten Version[Quelltext bearbeiten]

Warum nicht??--79.244.169.18 22:53, 8. Mär. 2014 (CET)[Beantworten]

mehrfach leere page-titles im Dump dewiki-20140320-pages-articles-multistream.xml.bz2 mit mwdumper-1.16.jar[Quelltext bearbeiten]

Wenn ich dewiki-20140320-pages-articles-multistream.xml.bz2 mit mwdumper-1.16.jar importiere bekomme ich 41 Seiten wo page_title = '' und page_namespace = 0 ist.

Das führt zu einer Unique Index verletzung. Ich habe collation der tables auf binary gestellt, also das sollte nicht das Problem sein.

Die Id's sind '2579043', '2671563', '2671567', '2715365', '2715366', '2715368', '2715369', '2715371' ,'2715372' ,'2715373' ,'2715374' ,'2715538' ,'2715539', '2715540', , 2715541', '2715825', '2715826', '2722488', '2722501', '2722560', '2722678', '2724856', '3353978', '3353979', '3353980', '3354017', '3382561', '3382577', '3382578', '3382579', '3382601', '3908138', '3908147', '3908692', '4228840', '5212713', '5863656', '6456165', '7557887', '7583138', '8124175'

Der Dump enthält für diese IDs sehr wohl einen Title. Ist mwdumper fehlerhaft? Gibt es aktuellere builds als 1.16 zum download? (Ich habe es nicht geschafft von Source zu bauen.) PeterSchueller (Diskussion) 09:17, 21. Apr. 2014 (CEST)[Beantworten]

Was ist was ?[Quelltext bearbeiten]

Mir ist völlig unklar, welche Dateien man braucht. Zwar sind mir die Unterschiede zwischen den unterschiedlichen Dateiformaten klar, aber nicht was "abstract", "all-titles", "category" usw. sein soll.

Eigentlich wollte ich einen kompletten Download, um mir eine meinen eigenen Wünschen entsprechende Offline-Version durch Löschen für mich unbedeutender Beiträge erstellen zu können.

Was ist was ? Welche Sachen muß ich runterladen ?--87.178.206.224 10:26, 27. Nov. 2014 (CET)[Beantworten]