Benutzer Diskussion:Gymel/GND-Probleme

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Grandios, danke für die Listen. --AndreasPraefcke (Diskussion) 10:26, 22. Sep. 2012 (CEST)[Beantworten]

Austauschankündigung[Quelltext bearbeiten]

Die aktuellen Listen wurden im September generiert, die dafuer benutzten GND-Daten stammten vom April. Anhand des Dumps dewiki-20121215 und tagesaktuellen Stand der GND will ich im Laufe der Woche die Listen neu einstellen (beim Vorbereiten fiel mir auf, dass der Gesamtbestand wohl nicht den verlautbarten Stand 4. Oktober hat, sondern etwa ein bis zwei Wochen früher, derzeit sammele ich die fehlenden Sätze noch ein). Absehbar ist bereits jetzt, dass wir eine vierstellige Zahl von Umlenkungen hier nachvollziehen müssen, das dürfte dann ein Fall für einen Botlauf sein. -- Thomas Berger (Diskussion) 09:13, 18. Dez. 2012 (CET)[Beantworten]

Schon mal Danke! Bin gespannt, was alles dazugekommen ist. --Kolja21 (Diskussion) 23:34, 18. Dez. 2012 (CET)[Beantworten]

Sieht gut aus: Danke für das Update! --Kolja21 (Diskussion) 22:59, 20. Dez. 2012 (CET)[Beantworten]

Hallo Thomas, Danke für die neue Liste, die mal wieder Bände spricht. Ich werde mir zwischendurch ein paar Daten auf meine Unterseite verschieben, um hier keinen Bearbeitungskonflikt entstehen zu lassen. Ich hoffe, dieses ist so ok. Viele Grüße --Silke (Diskussion) 21:13, 23. Mär. 2014 (CET)[Beantworten]

Danke für die neuen Listen. Da hat uns vor allem Benutzer:JackUser ganz schön was eingebrockt. --FA2010 (Diskussion) 14:52, 31. Mär. 2014 (CEST)[Beantworten]

Du meist vermutlich die zahlreichen Namenseinträge; ich habe mr. Jack auf der Diskussionsseite darauf angesprochen. Schnarks Helferlein setzt leider auch immer noch VIAFs, deren einziger Eintrag "undifferentiated" lautet. --Kolja21 (Diskussion) 08:34, 1. Apr. 2014 (CEST)[Beantworten]

Auch toll: Benutzer:Pelz (der im Gegensatz zu den anderen Kandidaten das wirklich langsam wissen müsste, er ist immerhin Admin!) hat zigfach völlig richtige Tp im Zuge seiner unerwünschten Ersetzungsaktion von PND zu TYP=p|GND in völlig falsche Tn verändert. --FA2010 (Diskussion) 18:32, 3. Apr. 2014 (CEST)[Beantworten]

Hm. Das löst die offene Frage in Diskussion:Normdaten. Magst Du Benutzer:Pelz einmal interviewen, wie so etwas zustande kommt (ich könnte mir vorstellen: 'von normdaten.js gezogene Tn-Nummer ist stärker als vorhandener "PND"-Parameter, der eigentlich nur umzusetzen wäre')? -- Thomas Berger (Diskussion) 20:22, 3. Apr. 2014 (CEST)[Beantworten]
Ich habe mich hier zu meinen Fehlern geäußert --Pelz (Diskussion) 22:00, 3. Apr. 2014 (CEST)[Beantworten]

Wann gibts mal wieder ne neue Liste?? 85.212.26.132 23:30, 25. Aug. 2014 (CEST)[Beantworten]

Vielleicht bald, da gerade 210.000 neue GNDs eingespielt wurden. Mitarbeiter werden dringend noch für folgende Listen gesucht: Benutzer:Gymel/NDmiss und Benutzer:APPER/Bands. Gruß --Kolja21 (Diskussion) 20:58, 26. Aug. 2014 (CEST)[Beantworten]
Komplette Listen habe ich vor im Oktober zu generieren, wenn mal wieder ein Gesamtabzug der GND aufgelegt wird (so ganz traue ich der von mir per OAI fortgeschriebenen Version nicht). Ende nächster Woche (oder wann der nächste Dump von dewiki bereit steht) kann ich aber provisorisch Listen von Tn's und nicht mehr gültigen GND-Nummern einstellen. -- Thomas Berger (Diskussion) 21:57, 26. Aug. 2014 (CEST)[Beantworten]

In analoger Manier habe ich einmal die Verwendung der Vorlage:DNB-Portal ausgewertet:

  • 690 unbekannte Nummern (plus ca. 270, wo Text statt einer Nummer eingetragen ist). Oft funktioniert der Link aber, weil zwar nicht die GND-Nummer aber die zugehörige DNB-Nummer (PPN) in die Vorlage eingetragen ist, und die Vorlage (derzeit) eine Stichwortsuche nach der Nummer auslöst. Beispiele etwa Itchy Poopzkid (Körperschaft, kann toleriert werden) oder bei Agora42 (kein Normsatz, ist zu löschen). Leider gibt es hier auch false positives, etwa bei Freies Deutsches Hochstift, wo dem GND-Satz der Code für den Entitätstyp fehlt und seine Nummer bei meiner Auswertung dann nicht als "gute" Nummer bekannt ist (ca. 25.000 Sätze scheinen betroffen, überwiegend Körperschaften)
  • ca. 730 Nummern, die zwischenzeitlich auf bessere umgelenkt wurden, etwa Landkreis Mainz: Hier verkehrt sich der Vorteil des vorigen Punktes ins Gegenteil: Gefunden wird aufgrund der Stichwortsuche nach der Nummer nur der Zielsatz der Umlenkung (plus oft ein "Datensatz kann nicht angezeigt werden", das dürfte der noch nicht vollständig ausgetragene Satz mit der alten Nummer sein)
  • ca. 6400 Nummern, die Tn-Sätzen entsprechen. Das können dann welche sein, zu denen es keinen Tp gibt bzw. ein oder mehrere Tp vorhanden ist, die Literatur aber beim Tn steht (das wäre bei WP:PND/F zu melden, oder es ist dort bereits gemeldet), oder aber es gibt einen Tp und die Literatur steht gar nicht mehr beim Tn-Satz (aufgrund Veränderungen unabhängig von WP:PND/F, oder weil noch nicht durch die DNB zurückgemeldet oder weil wir beim Nacharbeiten der Rückmeldungen zwar die Vorlage:Normdaten aber nicht die Vorlage:DNB-Portal korrigiert haben...)

Die Überschneidungen mit den Problemen in der Vorlage:Normdaten scheinen nicht besonders groß (knapp 100 Fälle, ich weiss nicht, inwieweit das mit den lt. catscan 634 Fällen korreliert, wo die Vorlage:DNB-Portal ohne die Vorlage:Normdaten eingetragen ist), da werde ich einen entsprechenden Hinweis in die Auswertung bzgl. Vorlage:Normdaten einbauen:

  1. Umlenkung von 4028349-5 TYP=k zu GND 2032298-7 für Eremitenpresse (+DNB-Portal: Umlenkung von 4028349-5)

Die große Frage ist, ob ich diese Listen hier einmal auflegen sollte, damit sie "abgearbeitet" werden können. Oder ob uns die DNB-Portal-Vorlage eher egal ist und wir die Tn- und sonstigen nicht korrekten Verwendungen einfach irgendwann maschinell entfernen lassen. -- Thomas Berger (Diskussion) 15:48, 27. Aug. 2014 (CEST)[Beantworten]

Früher oder später sollten wir das wohl mal machen. Problematisch find ich grad ein wenig den "Wartungsstau" (wir sind ja sehr wenige...). In der Kategorie:Wikipedia:Normdaten-Wartung wäre noch so einiges zu erledigen, aktuell am lohnendsten ist wohl Benutzer:APPER/VIAF mit vielen vielen der Wikipedia noch unbekannten GND. --Mai-Sachme (Diskussion) 20:40, 28. Aug. 2014 (CEST)[Beantworten]
Danke für den Bericht! So eine Übersicht wollte ich lange schon mal lesen. Ich denke auch, die Normdatenvorlage hat Vorrang (auf deren Daten greift Wikidata zurück; sie ist daher auch für andere Sprachversionen relevant), aber vielleicht finden sich ja neue Mitstreiter, die sich um die DNB-Portal-Vorlage kümmern. Schaden kann die Liste auf jeden Fall nicht. --Kolja21 (Diskussion) 16:44, 29. Aug. 2014 (CEST)[Beantworten]
Ja, vielen Dank für die Auswertungen. Stell die Liste doch mal irgendwohin. Ich hätte Interesse an der Tn-Liste (die wohl aber eher irgendwo zum Download, 6400 ist schon sehr viel). Vielleicht kann ich mal automatisiert durchchecken, zu welchen es derzeit keine Literatur gibt, das wäre vermutlich einen Blick wert. Ansonsten muss ich mich Mai-Sachme anschließen, die Arbeit im Normdatenbereich ist gigantisch. Ich könnte vermutlich sofort monatelang durcharbeiten und verschiedenste Wartungslisten abarbeiten und neue erstellen. Wikidata hat anscheinend zu >20.000 de-Artikeln VIAFs, die wir noch nicht haben... Und auch bei den GNDs, gibt es viel zu tun. Falls irgendjemand hier eine spezielle Wartungsliste wünscht, einfach mal bei mir anfragen. Vieles ist möglich, einfach mal mit den abgefahrensten Ideen auf mich zukommen, ich kann dann erläutern, inwieweit das möglich ist. --APPER\☺☹ 20:29, 29. Aug. 2014 (CEST)[Beantworten]
@APPER: Wünsche hat man immer ;) Zur Feier der 300.000sten GND wäre ein Update der Grafik Datei:Normdatenentwicklung-de-wikipedia.png super. --Kolja21 (Diskussion) 06:07, 30. Aug. 2014 (CEST)[Beantworten]
Gerne. Ist erledigt. --APPER\☺☹ 14:00, 1. Sep. 2014 (CEST)[Beantworten]

Es gibt nun Benutzer:Gymel/DNB-Portal mit aktuellen Auswertungen. Ich verstehe das nicht als Wartungsliste im eigentlichen Sinne, es handelt sich um latente Probleme die - abweichend von meinen Einschätzungen oben - wohl doch größtenteils automatisiert angegangen werden können (und nach entsprechenden Erfahrungen könnte ein solcher Bot dann auch analoges für die Parameter GND und GNDName der Vorlage: Normdaten leisten).

Ich habe die Listen in meinen BNS gestellt (und nicht extern zum Download bereitgestellt), damit Anwender der (so wie angegeben funktionierenden) Skript-Skizze von @Schnark: diese Seite einbinden können und damit beim Besuch von Artikeln eingeblendet bekommen, ob für die Verwendung der Vorlage:DNB-Portal eine Änderung fällig ist. -- Thomas Berger (Diskussion) 09:28, 5. Sep. 2014 (CEST)[Beantworten]

Veraltete Normdaten: 2. Parameter[Quelltext bearbeiten]

@Gymel: Erfasst die Liste eigentlich auch den 2. Parameter? Beispiel Alberta:

{{Normdaten|TYP=g|GND=4001049-1|GKD=64085-2}}

Die GKD ist mittlerweile eine Weiterleitung, taucht aber nicht in der Liste auf. Außerdem sind mir in der Kategorie:Wikipedia:Veraltete Normdaten (zzt. noch 1.236 Einträge) Artikel aufgefallen, in denen nur eine GKD oder SWD (statt der GND) eingetragen war. Werden solche Fälle irgendwo erfasst? --Kolja21 (Diskussion) 14:33, 2. Aug. 2015 (CEST)[Beantworten]

Zu deiner zweiten Frage: Benutzer:APPER/GKD SWD. --APPER\☺☹ 14:54, 2. Aug. 2015 (CEST)[Beantworten]
Super. Danke für die neue Liste. Das ging schnell ;) --Kolja21 (Diskussion) 16:16 Uhr, 2. August 2015
Habe die Liste abgearbeitet. In einigen Fälle (Geografika mit GKD) sind neue Dubletten hinzugekommen, so dass sich die Zahl der veralteten Normdateneinträge leider kaum reduziert hat (noch 1.204 Einträge). --Kolja21 (Diskussion) 22:53, 2. Aug. 2015 (CEST)[Beantworten]
Habe sie dann auch wieder gelöscht. Ich hatte noch ein halbes Dutzend Fälle gefunden, in denen eine GKD/SWD angegeben war, diese aber einer angegebenen GND entsprach. Die habe ich schnell selbst erledigt. --APPER\☺☹ 00:12, 3. Aug. 2015 (CEST)[Beantworten]
Zur ersten Frage: Forts. unten. --Kolja21 (Diskussion) 07:04, 26. Nov. 2015 (CET)[Beantworten]

Veraltete Normdaten[Quelltext bearbeiten]

@Gymel: Kategorie:Wikipedia:Veraltete Normdaten verweist auf diese Liste, mit dem Hinweis: "... es ist also nicht nötig, auf eigene Faust immer wieder nachzuschauen." Ich vermute allerdings, das gilt nicht für die Fälle, in denen bereits die korrekte GND (der "Gewinnerdatensatz") eingetragen ist. Zumindest habe ich eben bei einer Stichprobe auf Anhieb drei Artikel gefunden, bei denen die Dubletten bereits zusammengeführt wurde, ohne dass sie in der Liste aufgeführt sind.[1] --Kolja21 (Diskussion) 07:00, 26. Nov. 2015 (CET)[Beantworten]

Hallo Kolja, just heute Nacht habe ich neue Auswertungen vorgenommen und werde die Seiten nachher aktualisieren. -- Thomas Berger (Diskussion) 07:04, 26. Nov. 2015 (CET)[Beantworten]
Perfekt! Bin gespannt. --Kolja21 (Diskussion) 07:05, 26. Nov. 2015 (CET)[Beantworten]

@Gymel: Danke für die neue Liste, aber ... ;) Die von der DNB abgearbeiteten Dubletten sind dort weiterhin nicht erfasst, s. Deutsche Fortschrittspartei mit "SWD in der DNB: 4011640-2". --Kolja21 (Diskussion) 18:24, 26. Nov. 2015 (CET)[Beantworten]

Es kam mir leicht merkwürdig vor, dass die entsprechenden Reports leer waren, aber dann dachte ich, dass die Parameter evtl. schon so stark abgeschmolzen sind, dass es plausibel ist. Weit gefehlt... Jetzt habe ich "SWD" und "GND"-Umlenkungen ergänzt, da hat sich ja allerhand gesammelt! -- Thomas Berger (Diskussion) 21:18, 26. Nov. 2015 (CET)[Beantworten]

@Gymel: Hast du Zeit, die Liste zu aktualisieren? Die GND-Redaktion hat bei der Zusammenlegung von Dubletten Forschritte gemacht, s. Kategorie:Wikipedia:Veraltete Normdaten. Grüße --Kolja21 (Diskussion) 16:10, 15. Jul. 2016 (CEST)[Beantworten]

PS: Ein Teil-Update, das nur diese Wartungskat betrifft, würde mir reichen. --Kolja21 (Diskussion) 16:10, 15. Jul. 2016 (CEST)[Beantworten]
@Kolja21:, die Produktion hatte ich angeworfen, sie ist übers Wochenende aber leider nicht fertig geworden, d.h. jetzt heißt es Geduld bis zum nächsten Wochenende haben. -- Thomas Berger (Diskussion) 21:51, 25. Jul. 2016 (CEST)[Beantworten]
Keine Sorge, es eilt nicht ;) Mich treibt nur die Neugierde. --Kolja21 (Diskussion) 20:44, 26. Jul. 2016 (CEST)[Beantworten]

Danke für die neuen Listen! --Kolja21 (Diskussion) 16:52, 31. Jul. 2016 (CEST)[Beantworten]

Systematik "00m Platzhalter"[Quelltext bearbeiten]

@Gymel: Ich kann mich dunkel erinnern, mehrmals Tps verlinkt zu haben, die nicht oder nur spärlich individualisiert waren. Da wir diese Platzhalter mittlerweile selbst ergänzen können, wäre es hilfreich zu wissen, welche Tp6 mit dem Hinweis "keine Angaben zur Person bei der maschinellen Übernahme vorhanden" in der Normdatenvorlage erfasst sind (Beispiel: GND 189463732). Kannst du so eine Liste erstellen? --Kolja21 (Diskussion) 22:38, 23. Jan. 2017 (CET)[Beantworten]

Ich weiss nicht, wie aussagekräftig die Zahlen sind: Die (RDF/Turtle-)Gesamtlieferung vom Herbst 2015, auf der ich operiere, enthielt nur 9067 Datensätze mit dieser Formulierung (gndo:biographicalOrHistoricalInformation "keine Angaben zur Person bei der maschinellen Übernahme vorhanden"). Die Datenbank, in die ich alle Änderungen seitdem eingemischt habe, kommt auf nur noch 8767 Treffer. Die Schnittmenge mit den hier in der Normdatenvorlage gelisteten sind 54 61 Sätze:
  1. erledigtErledigt 189409061
  2. erledigtErledigt 189416424
  3. erledigtErledigt 189419555 (Quelle: deWP)
  4. erledigtErledigt 189421606 war bereits aufgearbeitet
  5. erledigtErledigt 189425741
  6. erledigtErledigt 189430710 Dublette, jetzt GND 118813722 (eingetragen auf WP:GND/F, Januar 2017)
  7. erledigtErledigt 189431652
  8. erledigtErledigt 189432268 war bereits aufgearbeitet
  9. erledigtErledigt 189433299 (Quelle: deWP)
  10. erledigtErledigt 189447613
  11. erledigtErledigt 189449462 Dublette, jetzt GND 133952266 (eingetragen auf WP:GND/F); war in deWP der falschen Person zugeordnet
  12. erledigtErledigt 189449802
  13. erledigtErledigt 18944987X
  14. erledigtErledigt 189450754
  15. erledigtErledigt 189453486
  16. erledigtErledigt 189453672 war in deWP der falschen Person (Robert von Bemberg-Flamersheim) zugeordnet
  17. erledigtErledigt 189454784
  18. erledigtErledigt 189455926
  19. erledigtErledigt 18945802X
  20. erledigtErledigt 18945914X
  21. erledigtErledigt 189462248 Dublette, jetzt GND 135552583 (eingetragen auf WP:GND/F)
  22. erledigtErledigt 189463953 war in deWP der falschen Person (Werner Bierbaum) zugeordnet
  23. erledigtErledigt 189465778 Dublette, jetzt GND 142522155 (eingetragen auf WP:GND/F)
  24. erledigtErledigt 189465786 Dublette GND 111485140X mit abweichendem Todesjahr (eingetragen auf WP:GND/F)
  25. erledigtErledigt 189471476
  26. erledigtErledigt 189471638
  27. erledigtErledigt 189472006
  28. erledigtErledigt 189473053
  29. erledigtErledigt 189474521 war in deWP der falschen Person (Hermann Höger) zugeordnet
  30. erledigtErledigt 189476648
  31. erledigtErledigt 189484411 Dublette, jetzt GND 1089763832 (eingetragen auf WP:GND/F)
  32. erledigtErledigt 189485086
  33. erledigtErledigt 189488743
  34. erledigtErledigt 189490101
  35. erledigtErledigt 189490365
  36. erledigtErledigt 189491302
  37. erledigtErledigt 189496053
  38. erledigtErledigt 189496827 Dublette, jetzt GND 189416823 (eingetragen auf WP:GND/F)
  39. erledigtErledigt 189499648 (zur weiteren Bearbeitung eingetragen auf WP:GND/F)
  40. erledigtErledigt 189500956 war bereits aufgearbeitet
  41. erledigtErledigt 189503637
  42. erledigtErledigt 189504609
  43. erledigtErledigt 189504935 war in deWP der falschen Person (Peter Winkelnkemper) zugeordnet
  44. erledigtErledigt 189505222
  45. erledigtErledigt 189505621
  46. erledigtErledigt 189510250 war bereits aufgearbeitet
  47. erledigtErledigt 189511052
  48. erledigtErledigt 189512180
  49. erledigtErledigt 189513136
  50. erledigtErledigt 189518243 Dublette, jetzt GND 118889281 (eingetragen auf WP:GND/F)
  51. erledigtErledigt 189523468 gelöscht, da Zuordnung nicht eindeutig; vgl. GND 189523425
  52. erledigtErledigt 189523956 gelöscht, da Zuordnung nicht eindeutig
  53. erledigtErledigt 189570547
  54. erledigtErledigt 189571349 Dublette, jetzt GND 174133316 (eingetragen auf WP:GND/F)
  55. erledigtErledigt 189572078
  56. erledigtErledigt 189573570
  57. erledigtErledigt 189576499
  58. erledigtErledigt 189576979 war bereits aufgearbeitet
  59. erledigtErledigt 189577711
  60. erledigtErledigt 189578319
  61. erledigtErledigt 189579714 war bereits (falsch?) aufgearbeitet (zur Überprüfung eingetragen auf WP:GND/F, März 2017)


Mit der alternativen Anfrage "gndo:gndSubjectCategory <http://d-nb.info/standards/vocab/gnd/gnd-sc#00m>", also auf die Systematikstelle `00m` (auf individualisierte Personen eingeschränkt), bekomme ich 7604 Treffer, die Menge ist nicht komplett in der anderen enthalten, weiter habe ich es aber nicht untersucht. -- Thomas Berger (Diskussion) 20:09, 28. Jan. 2017 (CET)[Beantworten]
Danke für die Liste! Sie ist zum Glück kürzer als ich dachte und lässt sich gut per Hand abarbeiten. Laut OGND sind zzt. noch 9.050 Personen mit der Systematik "00m" erfasst.[2] --Kolja21 (Diskussion) 21:36, 28. Jan. 2017 (CET)[Beantworten]
Noch einmal neu generiert: APPERs GND-Nummern-Dump von heute enthielt 80.000 Nummern mehr als der von vor zwei Wochen (damals nur ca. 300.000), den ich vorhin zum Filtern genutzt hatte. Evtl. ist auch diese Datenbank gerade mit Regenerieren beschäftigt, leider habe ich vergessen, wieviele Einträge eigentlich zu erwarten wären. -- Thomas Berger (Diskussion) 22:35, 28. Jan. 2017 (CET)[Beantworten]
Am Beispiel Peter Nettekoven (Generalvikar) finde ich aber, dass (weil der GND-Satz kein Werk nennt) jede Individualisierung in der GND spekulativ wäre. Diese Spekulation haben wir in Wikipedia:PND/Fehlermeldung/Februar 2015 zwar der Redaktion gegenüber mit Evidenz unterfüttert (Quelle bzw. einzige Nutzung HBZ, dort einschlägig verknüpfte(r) Titel...), aber dürfen wir bei unseren GND-Edits soo mutig sein? -- Thomas Berger (Diskussion) 22:47, 28. Jan. 2017 (CET)[Beantworten]
Ja, wird dürfen! Ich habe bei der GND-Schulung nachgefragt. Es ist ja auch kein Mut, sondern "nur" saubere Recherche gefragt. Wir wissen, welche Bibliothek den Datensatz angelegt hat (DE-Kn28 = Erzbischöfliche Diözesan- und Dombibliothek), und die OGND nennt die Werke, auf die sich der Datensatz bezieht ("Peter Nettekoven. - 1976" ist etwas dürftig, aber in der Regel steht dort mehr). Bei den rund 30 Zufallstreffern (ohne WP-Artikel), die ich mir in den letzten Wochen "per Hand" rausgesucht habe, hat die Zuordnung einwandfrei geklappt. Um sicher zu gehen, dass der Tp zwischenzeitlich nicht zweckentfremdet wurde, nutze ich zusätzlich den AKS-Link. - Hier das Ergebnis: GND 189578319 & danke noch mal für deine Hilfe. --Kolja21 (Diskussion) 23:32, 28. Jan. 2017 (CET)[Beantworten]
Imho hat sich die Arbeit gelohnt. Zwar hat auch die LCAuth Normdateneinträge, bei denen nur ein Namen und der Fundort erwähnt wird, aber diese mageren Tps stellen nicht nur VIAF vor ein Problem, sondern werden auch "intellektuell", d.h. von Bibliothekaren häufig falsch zugeordnet. Von den 61 GNDs waren 5 in Wikipedia der falschen Person zugeordnet; außerdem konnten 9 Dubletten bereinigt werden. Danke an Thomas Berger. --Kolja21 (Diskussion) 02:50, 6. Mär. 2017 (CET)[Beantworten]