Benutzer Diskussion:Wurgl

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Automatische Archivierung
Auf dieser Seite werden Abschnitte halbmonatlich automatisch archiviert, deren jüngster Beitrag mehr als 42 Tage zurückliegt und die mindestens einen signierten Beitrag enthalten. Um die Diskussionsseite nicht komplett zu leeren, verbleibt mindestens ein Abschnitt. Die Archivübersicht befindet sich unter Archiv.

VIAF[Quelltext bearbeiten]

Hey Wurgl, ich hab schnell mal eine Frage zum VIAF, vielleicht kannst Du mir helfen. Ich möchte aus VIAF-Einträgen wie diesem maschinell das erste Feld "DE-588" auslesen, also in diesem Falle den Wert "1001800-1". Es geht in jedem Falle nur um DNB-Normdaten, die anderen Normdaten der VIAF-Cluster interessieren hier nicht.

  • Kann ich irgendwie geschickt per URL-Zugriff direkt auf diese Variable zugreifen, ohne all den Rest?
  • Kann ich alternativ die Seite ohne HTML-Gerüst auslesen, also irgendwie maschinenlesbar? Dann wäre das einfacher aus dem Quelltext rauszufummeln.

Danke und Viele Grüße! —MisterSynergy (Diskussion) 21:50, 24. Sep. 2018 (CEST)

Ich hab mich damit nicht besonders beschäftigt. Momentan ergänze ich ja Normdatensätze um die jeweils fehlenden. Da fummel ich LCCN und NDL aus der HTML-Seite. Ist nicht gar so toll, aber so mach ich das momentan. Die GND hol ich aus dem Dump der DNB, hab ich hier in einer lokalen Datenbank und die VIAF steht auch in dem Dump bzw. die bekomm ich per https://viaf.org/viaf/sourceID/DNB|<GND-Id> (der Link, wenn die GND-Id neuer als der Dump ist) nur das geht wohl nicht bei denen, wo die VIAF diese andere Nummer abgelegt hat (also nicht bei Geographika etc.).
Irgendwo gibts ein API, aber dafür muss man sich - soweit ich da mal geforscht hab - anmelden und eventuell kostet das auch was, hab dann aber nicht weiter geguckt. Aber es gibt http://viaf.org/viaf/data/ und von dort hab ich hier zu Hause viaf-20170705-links.txt herumliegen (ist wohl schon ein Jahr her), in dem alten und fast schon verschimmelten File finde ich diese Zeile: http://viaf.org/viaf/154226028 DNB@http://d-nb.info/gnd/1001800-1. Brauchst aber dann wohl eine Datenbank. --Wurgl (Diskussion) 22:29, 24. Sep. 2018 (CEST)
Ah, indirekt ist das eine gute Idee. Da ich jeweils auch den entsprechenden VIAF-Cluster kenne, kann ich auch dessen justlinks.json laden und das da auslesen. Das ist dann schon alles, was ich wissen muss :-) Danke für den Input, Problem ist gelöst :-) —MisterSynergy (Diskussion) 22:56, 24. Sep. 2018 (CEST)

Anschlussfrage: Du erwähntest, dass Du GNB-Dumps lokal ausliest. Welches Dump-Format nutzt Du da, und welche lokale Software? Ich versuch das gerade mit verschiedenen RDF-Formaten von hier, aber das scheinen irgendwie zu große Dateien für mein Notebook zu sein. —MisterSynergy (Diskussion) 09:39, 7. Okt. 2018 (CEST)

Jupp! Das sind Monster. Wobei die jetzt gesplittet sind, vorher war das ein einziges Monster. Und ja, die sind für ziemlich jeden Rechner zu groß. Ich hab mir damals im April/Mai, als ich angefangen hab, schon überlegt, ob ich meine Kiste mit 64 GB ausstatten soll (mehr geht nicht), habs dann aber bleiben lassen.
Ich lese diese hier: T?gesamt1806gnd.rdf (das 1806 ist vermutlich das Datum der Erstellung: 18. Juni)
Und ich bin ein Programmierschwein, ich verwende dafür kein irgendwie geartetes Standardprogramm, ich hab diese Datei brav geparst und in Felder zerlegt und mir ein recht einfaches Datenbankformat ausgedacht. Und um diese Daten herum ist erstmal diese Auswertung gebastelt worden für Benutzer:Wurgl/Fehler_GND und dann ist da noch etliches Gedöns reingekommen um die Normdaten mit weniger (nervigem) Geklicke und Herumkopieren in die Wikipedia zu bringen. Ist alles gruseliges und selbstgeschriebenes C++ mit Qt (Bibliothek).
Wenn ich da mal was in den Dateien suchen will, dann gzip -d und in der ausgepackten Datei less (mit Zigarettenpause, weil das dauert). --Wurgl (Diskussion) 09:54, 7. Okt. 2018 (CEST)
Okay danke, das ist mir zu kompliziert und eigentlich am Ende auch zu unflexibel. Ich versuche hier mal weiter mein Glück mit den turtle-dumps und RDF4J, oder alternativ mit Python und rdflib. Ich kriege die Dumps lokal noch dekomprimiert (keine Überraschung), aber dann nicht in den on-disc oder in den in-memory triplestore rein. Wenn das da aber erstmal drin wäre, könnte ich höchstbequem mit SPARQL abfragen, bräuchte keine eigenen Parser schreiben und so … —MisterSynergy (Diskussion) 10:13, 7. Okt. 2018 (CEST) 1806 sieht eher wie "Juni 2018" aus.
Meine ersten Versuche waren mit dem PHP-XML-Reader und dann dort ausgewählte Daten (also nur die Links auf VIAF und auf Wikipedia) ins Memory schaufeln. Das benötigte auf dem Toolserver als cronjob ca. 8GB Memory und lief so zwei Stunden, also nur der Lese-Teil. Die Auswertung selbst rödelte dann nochmals fast so lang. Eine sinnvolle Weiterentwicklung mit Fehlersuche war da kaum möglich. Und ja, Juni 2018 kann es auch sein, in so 2-3 Wochen gibts einen neuen Dump und dann ist der Name 1018 oder eben 1720, 1810 oder 1910 :-) --Wurgl (Diskussion) 10:23, 7. Okt. 2018 (CEST)

Eule[Quelltext bearbeiten]

wir wurden nominiert, Gruß --Graphikus (Diskussion) 23:25, 7. Okt. 2018 (CEST)

Völlig zurecht :-)  --Itti 23:25, 7. Okt. 2018 (CEST)
Du bist ja auch ein Extremfleißiger und hast dir das verdient! Aber Itti hat mich auf deiner Seite mit "e" geschrieben. <verschwör>Das hat sie mit Absicht gemacht! *wissend guck*</verschwör> Argh! --Wurgl (Diskussion) 23:30, 7. Okt. 2018 (CEST)
Argh, schnell lauf und fix --Itti 23:32, 7. Okt. 2018 (CEST)
Und Gratulation zur Nominierung für die TechnikEule. Du bist da wirklich auch jemand, der die mehr als verdient hätte. Beste Grüße --Itti 23:32, 7. Okt. 2018 (CEST)
Ja schade dass es jeweils nur eine gibt, sonst wäre es wirklich einfacher gewesen. Der Winner is ..... Auch von mir herzliche Glückwünsche, was wäre alles nicht gelaufen wenn Du Dich nicht reingehangen hättest. --Graphikus (Diskussion) 23:49, 7. Okt. 2018 (CEST)
Nix schade! PerfektesChaos ist schon der Richtige! --Wurgl (Diskussion) 23:52, 7. Okt. 2018 (CEST)
Und hier noch die andere Eule :-) --Graphikus (Diskussion) 00:09, 8. Okt. 2018 (CEST)
St.Gallen Stiftsbezirk WikiEule 04 (cropped).jpg Ich wurde für die SupportEule 2018 nominiert.

Herzlichen Glückwunsch auch von meiner Seite! Gleich 2 mal nominiert, das ist noch ausbaufähig :-) Auf weiterhin gut Zusammenarbeit, --Silke (Diskussion) 14:13, 8. Okt. 2018 (CEST)

Erstmal Danke! – Aber naja. Einmal war ich ja nur ein kleines unbedeutendes Teilchen eines Teams. Also 1,x mal nominiert :-) --Wurgl (Diskussion) 14:16, 8. Okt. 2018 (CEST)
Herzlichen Dank, Andim (Diskussion) 09:30, 11. Okt. 2018 (CEST)

Glückwunsch[Quelltext bearbeiten]

Lieber Benutzer:Wurgl,

du wurdest für die WikiEule 2018 in der Kategorie:TechnikEule nominiert. Wir möchten dir sehr herzlich zu deiner Nominierung gratulieren und haben dir ein EulenBabel für deine Babelleiste mitgebracht. Gleichzeitig möchten wir dir für deine Arbeit in der Wikipedia sehr herzlich danken.

St.Gallen Stiftsbezirk WikiEule 04 (cropped).jpg Ich wurde für die TechnikEule 2018 nominiert.

Beste Grüße, Deine --WikiEulenAcademy Bagoly 2 vonallal.png 23:27, 7. Okt. 2018 (CEST)

Danke für deine Arbeit! --Atamari (Diskussion) 22:07, 10. Okt. 2018 (CEST)
Herzlichen Dank, Andim (Diskussion) 09:30, 11. Okt. 2018 (CEST)

Benutzer:Graphikus/Liste der Biografien/Anzahl der Listen[Quelltext bearbeiten]

Hallo Wurgl, da die Listen in der letzten Zeit sehr langsam wachsen ist es sinnvoller deren Übersicht zu reduzieren. Wäre Dir also dankbar wenn Du da erst bei 120.000 Bytes starten würdest. Wir brauchen noch circa 500 Biografien bis zu Schallmauer 700.000 :-)  Habe Dank und viele Grüße --Graphikus (Diskussion) 21:21, 24. Okt. 2018 (CEST)

erledigt Erledigt --Wurgl (Diskussion) 21:42, 24. Okt. 2018 (CEST)
Danke sehr. --Graphikus (Diskussion) 22:12, 24. Okt. 2018 (CEST)

Erika Von Heiland[Quelltext bearbeiten]

Hallo Wurgl die Erika ist weg. kein doppelter Eintrag und keine Änderung der PD. In der Datenbank vorhanden. Ja wo isse den? pfeif  --Graphikus (Diskussion) 15:52, 26. Okt. 2018 (CEST)

Weiß nicht. Hat sich wohl einen Tag Wikiurlaub genommen. Hab mal einen Testlauf gemacht und da ist die Erika drinnen. --Wurgl (Diskussion) 18:00, 26. Okt. 2018 (CEST)
Scheint wohl eine richtige Zicke zu sein. glass  --Graphikus (Diskussion) 18:28, 26. Okt. 2018 (CEST)
Erika ist vom Wikiurlaub zurück! --Wurgl (Diskussion) 09:37, 27. Okt. 2018 (CEST)
Gesehen, und dann brauchts noch DREI neue Listen. Donnerwetter! Aber nun was essen und so. Gruß --Graphikus (Diskussion) 09:43, 27. Okt. 2018 (CEST)

Benutzer:Graphikus/Liste der Biografien/Anzahl der Listen II[Quelltext bearbeiten]

Hallo Wurgl, habe gerade die drei neuen Seiten eingefügt. Nun sinds in der Kat 4847. Dabei ist die Liste der Autobiografischer Werke; also mit der Startseite sinds noch 4846. Bei meiner Ausrechnung Benutzer:Graphikus/Liste der Biografien sollten es 4845 + Startseite = 4846 sein. Siehe auch Benutzer:Graphikus/Liste der Biografien/Anzahl der Listen. In der Kat scheint die Liste Diverse (in meiner Aufstellung vorhanden) nicht zu sein. Und bei mir ist da beim Buchstaben S noch eine Weiterleitung dabei, die natürlich in der Botliste nicht vorhanden ist. Wenn ich also die Weiterleitung rausnehme und die Diverse in der Kategorie:Liste (Biografien) (dort fehlend) dazunehme komme ich auf eine Differenz von 2 Listen. Unschön. Wie kann man am einfachsten einen Abgleich mit der Benutzer:APPERbot/LdB/List machen? Fragen über Fragen aber auch! --Graphikus (Diskussion) 21:07, 27. Okt. 2018 (CEST)

Ich guck mal. Das sollte mit Quarry gehen. --Wurgl (Diskussion) 21:09, 27. Okt. 2018 (CEST)
Liste_der_Biografien/Gk, Liste_der_Biografien/St und Liste_der_Biografien/Winh fehlt mal in Benutzer:Graphikus/Liste_der_Biografien --Wurgl (Diskussion) 21:33, 27. Okt. 2018 (CEST)
Und die Weiterleitung Liste_der_Biografien/Sto ist dort drinnen. --Wurgl (Diskussion) 21:34, 27. Okt. 2018 (CEST)
Ui danke, ja die Weiterleitung hab ich ja schon gefunden. Und die Liste Diverse hat einen merkwürdigen Kateintrag. --Graphikus (Diskussion) 21:40, 27. Okt. 2018 (CEST)
Das versteh ich nicht ganz mit dem Kateintrag. *kopfkratz* --Wurgl (Diskussion) 21:49, 27. Okt. 2018 (CEST)
Und ich bin ganz gespannt auf meine Korrektur des Gesamtbestandes. PS: die Seite Wing war doppelt. --Graphikus (Diskussion) 21:55, 27. Okt. 2018 (CEST)
Aha! Doppelte kann ich so nicht rausfinden. Aber Wing wollte wohl ein Winh werden, hat sich wohl überaus erfolgreich gewehrt. --Wurgl (Diskussion) 21:58, 27. Okt. 2018 (CEST)
Richtig, richtig! Nun fehlt wohl wirklich nur das Fragezeichen. Kann die Kat wohl nicht anzeigen. Aber Aufstellung und Kat stimmen insoweit überein (wenn man das ?) noch dazurechnet. Stimmts oder hab ich Recht? Man; soviele Klopfer heben sich ja fast auf. Ich danke Dir mit solch kleinem Unterschied kann ich leben. Evt. schreibe ich mal Wiegels an. Schönen Abend. --Graphikus (Diskussion) 22:09, 27. Okt. 2018 (CEST)
Bei den Anzahlen hast noch was: Quarry. Bei D ist der erste Unterschied, bei G der zweite, der Rest passt wohl. --Wurgl (Diskussion) 22:13, 27. Okt. 2018 (CEST)
Beim Buchstaben G habe ich wohl noch rumgefummelt als Du die Quarry gestartest hast. Da hab ich nun Übereinstimmung. ABer bei D komme ich auf keinen grünen Zweig. Da zählte ich viermal 166. Danach habe ich die APPERListe bei D kopiert und ausgedruckt: 166 Seiten. Danach habe ich die Quarry neu gestartet. Und was erscheint 167. Dabei scheint es mir dass nun in der Liste keine Doublette ist. Oh Technik oh! --Graphikus (Diskussion) 23:33, 27. Okt. 2018 (CEST)
Hilft nix! Guck nochmals die Quarry (hab die auf D eingeschränkt), die Datenbank sagt 167 und die Datenbank lügt nix (die ist zu doof um zu lügen). --Wurgl (Diskussion) 00:05, 28. Okt. 2018 (CEST)
Mach ich besser morgen. Heute bekomm ich nur dicke Augen. Eben die Seite Difuses gefunden. War in D eingelaufen. Komisch, habe ich schon oft abgeklappert, aber erst heute gefunden. Damit stimmt die Kat mit meiner Aufstellung überein. Heute gehts bald ins Bettchen. Denk an die Zeitumstellung. Eine Stunde zurück. Morgenfrüh also merklich heller. Dafür um sechs Uhr dunkel. Schönen Sonntag. --Graphikus (Diskussion) 00:15, 28. Okt. 2018 (CEST)
Ja, das wird eine lange Nacht! Schlaf schön!--Wurgl (Diskussion) 00:18, 28. Okt. 2018 (CEST)
Tja die Quarry - öch öch, hat doch die Kat komplett mit der Difusen Seite gezählt. Nun nachdem das ausgestanden ist, (meine Aufstellung schlüsselt D und die Diverse ja getrennt auf), können wir die Sache zu den Aktien legen. Ebenfalls süße Träume von sauren Gurken. Bis danne --Graphikus (Diskussion) 00:25, 28. Okt. 2018 (CEST)
Na ausgeschlafen? ;-) Die Seiten haben ja keinen Kateintrag, d.h. durch die Vorlage laufen die von selbst in die Kat ein. Nun habe ich etwas geschraubt, d.h. einen Eintrag für die Kat auf die Seite Diverse gesetzt. Daher erscheint die Seite nicht mehr unter D sondern ganz zu Anfang. Nun bin ich zufrieden. Danke für Deine Mühe. --Graphikus (Diskussion) 16:20, 28. Okt. 2018 (CET)
Ja ausgeschlafen und Lokal K erfolgreich kontrolliert ;-) --Wurgl (Diskussion) 18:24, 28. Okt. 2018 (CET)

Vorlagenaktualisierung[Quelltext bearbeiten]

Vorschau der Babel-Vorlage → Danke

Hallo Wurgl! Schön, dass du die Vorlage zur Auswertung deiner persönlichen „Danke“-Statistik verwendest. Die Freigabe zur automatischen Aktualisierung wurde ordnungsgemäß erteilt. Deine Statistik wird nun, sofern die entsprechende Unterseite angelegt wurde, ein Mal pro Tag aktualisiert. Sollte etwas nicht funktionieren, schau einfach noch mal in die Dokumentation oder auf die dazugehörige Diskussionsseite. Viel Freude bei der Verwendung!

--FNBot 21:51, 28. Okt. 2018 (CET)

Anna Dandolo - Unstimmigkeiten der Daten[Quelltext bearbeiten]

Hallo Wurgl, geht das so. Wie bist Du überhaupt auf diese Unstimmigkeiten gestoßen? Zufall?

Und so ist das halt bei Wiki. Nach einem Jahr fällt es wem anders auf.

Beste Grüße --EckhardLieb (Diskussion) 23:36, 4. Nov. 2018 (CET)

Ich hab da ein Script geschrieben, das die Dinger vergleicht: Die Nr. 15 in dem Abschnitt: Benutzer:Wurgl/Falsche_Lebensdaten --Wurgl (Diskussion) 23:45, 4. Nov. 2018 (CET)

Quarry zu Seiten mit nur einem Zeichen[Quelltext bearbeiten]

Hi Wurgl, du hattest nach Anfrage auf FZW eine Quarry-Abfrage nach Seiten, deren Titel nur aus einem Zeichen besteht, erstellt: [1]. Danke dafür, ist sehr hilfreich! Leider fehlen dort einige Seiten, beispielsweise all diese hier. Ich vermute mal, dass es damit zu tun hat, dass viele Unicode-Zeichen mehrere Bytes belegen, was die Substring-Funktion LEFT durcheinanderbringt. Fällt dir da eine einfache Lösung ein? Leider kenne ich mich mit Unicode und SQL überhaupt nicht aus. Gruß, CorrectHorseBatteryStaple (Diskussion) 08:53, 5. Nov. 2018 (CET)

Oh, ging doch leichter als gedacht: Statt USING utf8 sollte man bei MariaDB wohl USING utf8mb4 verwenden, wenn man solche Zeichen drin hat. Hier mein Fork deiner Abfrage, liefert 88 Treffer zusätzlich, hier die zusätzlichen. Gruß, CorrectHorseBatteryStaple (Diskussion) 09:00, 5. Nov. 2018 (CET)
Auf die Idee bin ich gar nicht gekommen. WHERE LENGTH(page_title) = 1 lieferte erstmal nur 57 (aus der Erinnerung) Treffer. Das war Käse, das war mir sofort klar. Nach Herumprobieren und Manual lesen hab ich dann das Gedaddel mit USING utf8 gefunden, das hat deutlich mehr Treffer geliefert und damit war ich erstmal zufrieden. Aber das da noch welche fehlen … naja, ich hab meine Quarry auch angepasst. --Wurgl (Diskussion) 09:18, 5. Nov. 2018 (CET)

Liste der am längsten geschützten Seiten[Quelltext bearbeiten]

Hi Wurgl, ich bins noch mal. Ich hab die Listen früher in unregelmäßigen Abständen zur Prüfung veralteter Sperren benutzt. Dafür ist die letzte Sperre und der letzte Kommentar entscheidend. In der jetzigen Form kann ich mit den Listen nun mehr nicht arbeiten. Ich wäre dir daher sehr dankbar, wenn du entweder noch die beiden Spalten hinzufügen würdest, oder eigene Listen dafür generieren würdest. Beste Grüße --Zulu55 (Diskussion) 10:31, 15. Nov. 2018 (CET)