Wikipedia:Bots/Anfragen

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche

Hier ist Platz, Bearbeitungs- und Änderungswünsche an die Botbetreiber zu notieren, die in „Handarbeit“ ausgeführt eher als Zumutung gelten können, zum Beispiel das Korrigieren von mehr als 50 Einbindungen einer verschobenen Vorlage (gilt nur für zu löschende Falschschreibungsweiterleitungen auf Vorlagen!).

  • Für Rundschreiben (Einladungen zu Stammtischen usw.) gibt es auch die neue Funktion Hilfe:Massennachricht.
Für Anfragesteller gilt
  1. Anfragen bitte begründen, gegebenenfalls mit Links auf relevante Diskussionen, und unterschreiben.
  2. Es gibt keine Verpflichtung der Botbetreiber, diesen Anfragen nachzukommen und insofern auch keinen Anspruch auf Umsetzung eines Änderungswunsches.
  3. Größere Änderungen an Artikeln eines Themengebietes, z. B. an Einbindungen viel genutzter Vorlagen, bitte mit den jeweiligen Fachportalen oder -redaktionen abstimmen. Die Verantwortung für die Aktion liegt beim Anfragesteller.
  4. Vor dem Stellen einer Anfrage, die einen regelmäßigen Boteinsatz und keine einmalige (Massen-)Änderung betrifft, bitte ebenfalls das betroffene Portal bzw. Projekt informieren und den geplanten Boteinsatz dort diskutieren.
  5. Bei einem Boteinsatz ist oft noch Vor- und Nacharbeit durch den Anfragesteller notwendig, zum Beispiel nach Auflösung von Weiterleitungen die Kontrolle und das Stellen eines Schnelllöschantrages. Auch kann es immer Fälle geben, in denen der Bot nicht richtig arbeitet und die dann manuell nachgearbeitet werden müssen.
  6. Ent- oder Umkategorisierungen von Artikeln in die Kategoriendiskussion eintragen, dort diskutieren und dann in die Warteschlange des WikiProjekts Kategorien stellen.
  7. Ein einfaches Umbiegen von Links nach einer Verschiebung auf das neue Ziel wird grundsätzlich nicht vorgenommen.
    1. Umgebogen werden können Verweise auf zwingend zu löschende Weiterleitungen – wie z. B. bei Falschschreibungs-Weiterleitungen oder nach Verschiebungen falsch geschriebener Vorlagen.
    2. Neue Begriffsklärungsseiten können zur Entlinkung an das Fließband des WikiProjekts BKS gemeldet werden.
  8. Änderungen der Signatur werden nicht durchgeführt, auch nicht im Rahmen der Umbenennung von Benutzerkonten (siehe Archiv).
  9. Es werden keine Änderungen der Rechtschreibung zwischen zulässigen Versionen bzw. Variationen durchgeführt.
Für Botbetreiber gilt
  1. Jeder Botbetreiber ist verpflichtet, die Sinnhaftigkeit vor Ausführung eines Änderungswunsches zu prüfen und bei Einsprüchen gegebenenfalls von der Änderung abzusehen (kein blindes Vertrauen in die Angemessenheit/Richtigkeit hier gestellter Anfragen).
  2. Für jede hier gelistete Anfrage gelten die auf Wikipedia:Bots genannten grundsätzlichen Regeln (zum Beispiel keine Änderungen im Benutzer- oder Wikipedia-Namensraum ohne Absprache).
  3. Bot-Anfragen (insbesondere nach Löschdiskussionen) sollten mindestens 3 Tage ruhen, um eine gegebenenfalls initiierte Löschprüfung nicht durch vollendete Tatsachen unmöglich zu machen. Bei offensichtlichen Botaufträgen (z. B. aus einer Portal-Diskussion für das Portal beschlossene Änderungen und dergleichen) ist diese Wartezeit nicht zwingend notwendig, desgleichen nicht für „Anfrage-Aufträge“, die keine Seiten in der Wikipedia ändern.
Durchführung
  • Die Botbetreiber sollen bitte vor Umsetzung den jeweiligen Punkt entsprechend kommentieren, um Überschneidungen zu vermeiden.
  • Dazu sollte unmittelbar (maximal 15 Minuten) vor dem Botstart hier im entsprechenden Abschnitt die Vorlage InuseBot platziert werden:
{{InuseBot|Botname|Betreiber}}
  • Den Bot bitte sorgfältig beobachten!
  • Bitte nach Erledigung den Punkt in der Liste als erledigt kennzeichnen.

Neue Anfrage stellen

Abkürzung: WP:BA, WP:BOT/A, WP:B/A


Automatische Archivierung
Auf dieser Seite werden Abschnitte automatisch archiviert, die seit einem Tag mit dem Baustein {{Erledigt|1=~~~~}} versehen sind. Die Archivübersicht befindet sich unter Wikipedia:Bots/Anfragen/Archiv.

Anzeige von fälligen KLA-Kandidaturen[Bearbeiten]

Moin! Ich möchte in Erfahrung bringen, ob ein Bot fällige WP:KLA-Kandiaturen in eine noch zu erstellende Vorlage schreiben kann. Nach zehn Tagen können diese ausgewertet werden, häufig passiert das jedoch viel später. Das hängt damit zusammen, dass an die Auswertung nur auf der Diskussionsseite erinnert wird, und dort nur ein relativ kleiner Personenkreis angesprochen wird - übrigens ein Personenkreis, der selbst kräftig mitstimmt und für die Auswertung nicht in Frage kommt. Eine automatisch gepflegte Vorlage könnte z.B. auch bei WP:KALP oder WP:R angebracht werden. Sie müsste lediglich nach Ablauf der Frist (10 Tage ab Erstellung) den entsprechenden Artikel inkl. dem Link zur Diskussion angeben. Ist das vollautomatisiert möglich? --Spielertyp (Diskussion) 13:12, 29. Jun. 2013 (CEST)

Da ich gerade eine Anfrage zur KALP-Benachrichtigung auf meiner DS habe (vielleicht gehts das dann in einem Abwasch): Was soll der Bot denn genau machen?  @xqt 08:51, 14. Jul. 2013 (CEST)

(Späte Antwort wegen Urlaubs) Die kurze Diskussion dazu findet sich hier: Wikipedia_Diskussion:Kandidaten_für_lesenswerte_Artikel#Auswertung. Meine erste Überlegung war, eine Vorlage zu haben, in welche der Bot am 10. Tage den Artikel einträgt. Ab dann sind die Kandidaten nämlich fällig. Zusätzliche Spielereien, die die Verwaltung erleichtern können, wären denkbar: Kopiervorlage für {{Lesenswert}} sowie die Stimmen. Vielleicht als Box zum Ausklappen. --Spielertyp (Diskussion) 23:46, 18. Jul. 2013 (CEST)

Lesenswert-Vorlage funktioniert nicht, da müsste der Bot immer den Permanentlink austauschen sobald jemand den Artikel editiert - und auf neuen Unfug in der letzten Version (=potentielle Auszeichnungsversion) sollte man den Artikel eh prüfen. Und die Stimmen kann ein Bot auch nicht auswerten, solange nicht alle konsequent und perfekt die Vorlagen benutzen (wird nicht passieren). Es ist einfach, bei einem KLA-Besuch die ältesten Artikel anzuschauen, ich denke am Sehen liegt ein Auswertungsrückstand nicht, eher an mangelnden Stimmen (Verlängerung also sinnvoll) oder schwierigen Auswertungen die ggf. Fachwissen benötigen, um Einwände beurteilen zu können.
Nützlicher wäre ein Bot, der nach einer Auswertung die Verwaltungsseiten aktualisiert. Auf meiner Spielwiese habe ich dazu ein paar Infos gesammelt. --mfb (Diskussion) 17:19, 10. Mär. 2014 (CET)

Wikipedia:Lesenswerte_Artikel/nach_Datum automatisch pflegen[Bearbeiten]

Moin! Kann jemand diese Arbeit in sein Botprogramm aufnehmen? Die Liste Wikipedia:Lesenswerte_Artikel/nach_Datum/2013 (für jedes Jahr eine) listet alle lesenswerten Artikel mit Datum ihrer Kür nebst lesenswerter Version-ID auf. Vielleicht ist es ja möglich, diese Liste automatisch zu pflegen, indem die relevanten Daten einfach aus dem jeweiligen Artikel ausgelesen werden. Dort befindet sich nämlich die Vorlage:Lesenswert mit zwei Parametern: Datum und Verions-ID. Dadurch würde man viel Zeit sparen wenn neue Artikel zu lesenswerten Artikel gekürt werden: Es entfiele ein ganzer Verwaltungsschritt von 7. Hier die entsprechende Diskussion dazu. --Spielertyp (Diskussion) 00:40, 2. Nov. 2013 (CET)

Ich kann mir mal angucken, ob ich das hinbekomme .. besteht das Anliegen noch? Ist ja schon lange her. --Croesch (Diskussion) 03:39, 15. Nov. 2014 (CET)
Vermutlich nicht mehr aktuell, Anfrager nun inaktiv. --Krd 20:42, 27. Dez. 2014 (CET)
Der Setzer dieses Bausteins ist der Ansicht, diese Bot-Anfrage sei abgeschlossen und könne archiviert werden. --Krd 20:42, 27. Dez. 2014 (CET) Erledigte Anfrage

Ref-Bot: "Eierlegende Wollmilchsau"[Bearbeiten]

Hallo! Es wäre super, wenn man Internetlinks der Form "www.Text.Domain.BlaBlub.html" als Refernzen in die ref Klammern eintragen würde und dann ein Bot alles weitere automatisch erledigt. Abrufdatum, Datum der Veröf., Titel, Autor, usw automatisch anhand des Links nachtragen würde. Es wäre schon gut, wenn zunächst nur einige bekannte Onlinemedien darunter erfasst würden.--Alberto568 (Diskussion) 18:26, 9. Nov. 2013 (CET)

Das würde nur bei Webseiten funktionieren, die eine feste Struktur haben, so dass ein Bot-Programm Autor, Titel etc. sicher identifizieren kann. Und das am besten seit Bestehen der Seite/WP, damit auch alte Refs korrekt verarbeitet werden. Außerdem sollten sich die Inhalte einer Seite nicht ändern, damit man nicht was falsches referenziert. In der Summe dürfte das nur relativ selten zutreffen. Schwebt dir eine konkrete Webseite vor? So allgemein kann man zur Machbarkeit sonst wenig sagen. Es wird jedenfalls keinen Bot geben, der beliebige Webseiten in obigem Sinne abarbeiten kann.-Berita (Diskussion) 12:08, 12. Nov. 2013 (CET)
Beispiel sind:
  • www.sueddeutsche.de
  • welt.de
  • faz.net
  • spiegel.de
  • stern.de

usw. --Alberto568 (Diskussion) 18:55, 18. Nov. 2013 (CET)

Kennst du tools:~dispenser/view/Reflinks? --Leyo 20:08, 21. Nov. 2013 (CET)
Für einige Webseiten wäre eine technische Umsetzung durch die Auswertung der COinS-Daten sicherlich möglich. Zotero kann zumindest bei einigen der Webseiten die Daten automatisch übernehmen. Keine Ahnung, ob über das COinS-Format oder andere Spezifikationen. Ist die Frage, ob wer Lust hat seinem Bot das beizubringen. --Häuslebauer (Diskussion) 00:50, 3. Feb. 2014 (CET)
Offenbar fand sich niemand, der das bauen möchte. --Krd 20:44, 27. Dez. 2014 (CET)

Ich habe mal die Erle entfernt, da ich weiß, dass Benutzer:Kuebi an etwas ähnlichem (fortgeschritten) bastelt. --Drahreg01 (Diskussion) 21:24, 27. Dez. 2014 (CET)

In der Tat (Zitat: A. Klenk), ich bastle an so etwas. Das ist zwar derzeit nur ein Script (mehr dazu: Benutzer:Kuebi/Weblinkeditor), aber das Thema ist sehr komplex. Selbst eine einzelne Domain wie spiegel.de kann einem fast zum Wahnsinn treiben. Nicht nur, dass nackte PDF-Dateien zu den entsprechenden Artikeln verlinkt werden, da gibt es noch Bilder, Flash-Animationen, Spiegel-Videos, Spiegel-Fotostrecken, Spiegel Online, die Printversion, Spiegel Special, Spiegel Kultur, u.v.a.m. und unfreundlicherweise sind die alle irgendwie anders codiert. Mit dem Titel klappt es meist noch ganz gut, aber Autor(en) und vor allem Datumscodierung variieren sehr stark. Es ist unglaublich wieviel Datumsformate es gibt und leider auch genutzt werden. Aus der Vielzahl der Formate muss auch noch das Richtige erkannt werden (nicht das Tagesdatum, nicht das des letzten Kommentars). Das Script lernt mit jedem Edit. Faktisch schraube ich ständig an Erweiterungen herum. Die wesentlichen deutschsprachigen Leitmedien (alle o.a.) funktionieren jetzt ganz gut. Zu den Varianten der Quellen kommen noch Varianten bei der Verlinkung in der Referenz hinzu. Reine nackte Links sind ja ein Kinderspiel. Aber es gibt Zweitgenossen, die setzen gleich vier davon in eine Referenz. Dann wird noch auf die verrückteste Art und Weise der Link garniert: von Kurzzitaten bis zu mehrzeiligen Zitaten – die erhalten werden müssen – sich aber für ein dummes Programm kaum von anderen, verzichtbaren Angaben (wie beispielsweise dem Artikeltitel /-untertitel unterscheiden). Dann werden an die Links so nette Verziehrungen wie Gedankenstriche, Kommata, Semikolons, Doppelpunkte u.v.a.m. angehängt, die beim Aufruf gnadenlos Fehler erzeugen, wenn sie nicht ausgefiltert werden. Heute hatte ich einen mit drei /// hinter dem http:. Ich könnte stundenlang erzählen. Außer dem Script, das ich momentan auf Artikelschwergewichte wie Adolf Hitler, Brustkrebs, Alzheimer-Krankheit, Autismus loslasse und dort teste, gibt es noch einen Linkformatierer der öffentlich zugänglich ist. Der benutzt dieselben Module wie das Script, hat aber ein völlig anderes Interface. Zu testen ist der Linkformatierer hier. Einfach einen Weblink eines Mediums eingeben und das Ding wirft bei den wichtigsten Medien auch was brauchbares aus. Ich habe mittlerweile ca. 90 unterschiedliche Websites erfolgreich (z.T. nach Anpassungen) getestet. Wünsche und Verbesserungen können dort per Formular geäußert werden (natürlich auch auf meiner Diskussionsseite). --Kuebi [ · Δ] 23:27, 27. Dez. 2014 (CET)

Weblinkfix INSEE Canton-Links[Bearbeiten]

Bitte diese Liste:Weblinksuche INSEE Canton-Links (natürlich nur ANR-Seiten) wie folgt umsetzen

//Regexp: von:
"http://www.recensement.insee.fr/RP99/rp99/co_navigation.co_page\?nivgeo=P&theme=ALL&typeprod=ALL&codgeo=(\d{4,4})&quelcas=LISTE&lang=FR"
//nach:
"http://www.insee.fr/fr/bases-de-donnees/esl/comparateur.asp?codgeo=cv-$1"
Ergebinis
//Beispiel mit ID 5520; aus:
"http://www.recensement.insee.fr/RP99/rp99/co_navigation.co_page?nivgeo=P&theme=ALL&typeprod=ALL&codgeo=5520&quelcas=LISTE&lang=FR"

//wird:
"http://www.insee.fr/fr/bases-de-donnees/esl/comparateur.asp?codgeo=cv-5520"

Davon betroffen sind etwas mehr als 1400 URLs im ANR und nochmal soviele Diskussionsseiten, die per SLA aufgeräumt werden müssen.  Frohes Schaffen — Boshomi ☕⌨☺   18:52, 8. Dez. 2013 (CET)

Global sind es 4411 Links. Deshalb bin ich wohl mit MerlLinkBot dran. Dauert aber ein paar Tage. Merlissimo 20:57, 8. Dez. 2013 (CET)
Ich habe das Regexp auf \d{4,4} vier Stellen eingeschränkt. Bei den wenigen Ausnahmen passt der Ersatz nicht. Frohes Schaffen — Boshomi ☕⌨☺   21:36, 8. Dez. 2013 (CET)
Die Links die nicht dem obigen Muster entsprachen habe ich inzwischen per Hand bearbeitet. Für andere Sprachversionen ist zu beachten dass es ID mit dem Muster "2[AB]\d{2,2}"  //z.B. "2A61" oder "2B04" entsprechen. Frohes Schaffen — Boshomi ☕⌨☺   22:50, 8. Dez. 2013 (CET)
@Boshomi Was kann ich mit nivgeo=C&codgeo=\d{5,5} machen? Bsp: http://www.recensement.insee.fr/RP99/rp99/co_navigation.co_page?nivgeo=C&codgeo=25510&theme=ALL&typeprod=ALL&quelcas=LISTE Merlissimo 22:37, 13. Mär. 2014 (CET)
Im konkreten Fall geht das nach http://www.insee.fr/fr/bases-de-donnees/esl/comparateur.asp?codgeo=com-25510 ;
Das dürfte aber kein Kanton sondern eine Commune sein (nivgeo-"C").
Anmerkung: Informativer wäre das Le dossier complet - pdf. Darauf würde ich nicht direkt verlinken. (Manuell würde ich da einen Hinweis im Linktext hinterlassen. etwa so: (siehe auch Le dossier complet (format pdf) - Commune de Ruffey-le-Château (25510), (pdf))) Frohes Schaffen — Boshomi ☕⌨☺  15:14, 1. Mai 2014 (CEST)

Weiter INSEE Muster:[Bearbeiten]

//Regexp: von:
"http://www.recensement.insee.fr/searchResults.action\?zoneSearchField=&codeZone=(\d{5,5})-COM"
//nach:
"http://www.insee.fr/fr/bases-de-donnees/esl/comparateur.asp?codgeo=com-$1"
Ergebnis

Siehe Diff für 49194. Davon Betroffen sind derzeit rund 194 Artikel  Frohes Schaffen — Boshomi ☕⌨☺   23:46, 10. Dez. 2013 (CET)

Externe Links im Text löschen/umwandeln[Bearbeiten]

Gibt es eigentlich schon einen Bot, der unzulässige Externe Links im Artikeltext sucht & mäht? Ich meine sowohl in de: als auch en: über die Jahre einen Anstieg dieser Problematik zu beobachten, insbesondere bei wenig be(ob)achteten Artikeln - und wie Löwenzahn verbreitet sich das gerade dort wo es einmal sitzt hartnackig weiter. Und da mir noch kein Bot aufgefallen ist, der sowas verbessert, hier meine Frage a) warum nicht b) oder doch c) und wenn jein dann könnten wirhüstel so einen doch mal starten, oder?? zwinker  --Trofobi[Grundprinzipien: gelöscht] 14:40, 27. Dez. 2013 (CET)

Falls Du Dich auch für unerwünschte Interwiki-Links im Artikeltext interessierst, könnte Du Benutzer:Krdbot/ANR-Meta-Links als Arbeitsliste ansehen. --Krd 19:47, 29. Dez. 2013 (CET)
gudn tach!
ich hab den request noch nicht verstanden. es gibt mehrere bots, die links ersetzen/loeschen koennen, z.b. user:CamelBot. was genau willst du denn wie ersetzen. -- seth 23:10, 29. Dez. 2013 (CET)
Es geht in meiner Interpretation darum, Weblinks im Fließtext (also nicht in Weblink-Abschnitten) zu entschärfen, bzw. besser zu entfernen. Weblinks in Einzelnachweisen dürfen natürlich nicht nicht auslösen. Imho wird das besser händisch gemacht, Weblinks müssen entweder ganz entfernt, in Einzelnachweise umgewandelt oder in den Abschnitt Weblinks verschoben werden. Also besser eine Wartungsliste o.ä. – Giftpflanze 12:21, 5. Jan. 2014 (CET)
Danke für Eure Antworten, besonders Giftpflanze: genau das hatte ich gemeint, hier noch ein paar konkrete Beispiele: [1], [2], [3], [4]. Ein Bot könnte solche Links auf verschiedene Arten behandeln, zB.:
a) ganz löschen und nur den [http://gelöschter.link Text] stehen lassen
b) automatisch in eine ref umwandeln: Text<ref>http://verschobener.link</ref>
c) mit Edithinweis verstecken: Text<!--"http://versteckter.link" wurde deaktiviert: keine externen Links im Artikeltext, bitte. Siehe: WP:EL-->
(Alles mit Hinweis auf WP:EL in der Zusammenfassung)
Oder gibt eine Liste, wo Artikel mit verdächtigen EL gelistet werden? Oder ein Tool, wo man solche Änderungen gleich als automatischen Editvorschlag im Editor aufgemacht bekommt und dann gleich die Änderung prüfen, anpassen und speichern kann?
Ausgenommen von so einem Suchlauf bleiben können imho die Abschnitte Literatur, Weblinks und Referenzen. --Trofobi[Grundprinzipien: gelöscht] 02:49, 17. Jan. 2014 (CET) PS nein, es geht mir nicht um Blacklist- oder Sprachversions-Links. PPS es gibt einzelne Artikel, die sind mit solchen Links komplett verseucht, aber insbesondere viele kleine, wenig beobachtete Artikel, in denen unerfahrene Autoren dann denken, das sei Standard hier und so weiterarbeiten.
(Da keiner mehr Antwortet) Seht Ihr hier kein Problem? oder keine Lösung? oder…? Gibt es nicht wenigstens ein Tool, um solche Seiten überhaupt finden zu können? (bin gerade wieder nur durch Zufall über so einen Fall gestolpert... --Trofobi[Grundprinzipien: gelöscht] 01:07, 4. Feb. 2014 (CET)
Gibt mal bitte ein Beispiel für ein Problem und die dazugehörige Lösung, am besten als Difflink. --Krd 20:04, 21. Feb. 2014 (CET)
@Krd: Difflinks hatte ich gleich oben in meiner ersten Antwort vier Stück angegeben. Hier ein weiteres Beispiel. --Trofobi[Grundprinzipien: gelöscht] 01:16, 3. Aug. 2014 (CEST)
@Trofobi: Ich behaupte mal vorsichtig, das ist nicht umsetzbar. Nicht zuletzt dein letztes Beispiel ist ja eins dafür, wie man es eben nicht machen sollte. --Krd 18:43, 13. Nov. 2014 (CET)
Prima, lassen wir sie lieber einfach alle drin... --Trofobi[Grundprinzipien: gelöscht] 00:54, 12. Dez. 2014 (CET)
Der Setzer dieses Bausteins ist der Ansicht, diese Bot-Anfrage sei abgeschlossen und könne archiviert werden. --Krd 20:46, 27. Dez. 2014 (CET) Erledigte Anfrage

Vorlage:Infobox Unternehmen[Bearbeiten]

Hallo, bitte die Parameter "Gewinn" und "Produkte" aus den Artikeln bzw. den Vorlageneinbindungen entfernen. Die Entfernung der Parameter wurde vor Jahren beschlossen, siehe hier und hier (kurz: Gewinn soll nicht verwendet werden weil die Gewinnermittlung nicht einheitlich ist und Produkte wird durch den Parameter Branche vollständig erschlagen). Beide Parameter sind schon länger nicht mehr in der Kopiervorlage und Doku enthalten und werden aus dem Vorlagencode entfernt sobald die Artikel korrigiert sind. Danke und Grüße --Millbart talk 16:11, 26. Feb. 2014 (CET)

Willst du die Angaben ersatzlos löschen lassen oder in den Artikeltext verschieben? Ich habe mangels besserem Wissen die Angabe benutzt mit <ref>Geschäftsbericht</ref> als Quelle. Wenn die gesamte Zeile Gewinn gelöscht wird, geht der Einzelnachweis mit verloren.--kopiersperre (Diskussion) 00:13, 27. Feb. 2014 (CET)
Im Idealfall hätte ich gerne eine Liste mit der jeweils entfernten Zeile, so dass ein ggf. entfernter Einzelnachweis an anderer Stelle, sofern nötig, eingebaut werden kann. Den Gewinn könnte man theoretisch in den Artikeltext übertragen nur müsste dann, um daraus eine enzyklopädische Information zu machen, die Gewinnermittlung und das wirtschaftliche Umfeld in dem jeweiligen Berichtszeitraum aus dem die Zahl stammt erläutert werden. Einzelne Bilanzwerte sind ohne zeitliche, räumliche und industrielle Einordnung kein enzyklopädisches Wissen, siehe auch die verlinkte Diskussion. --Millbart talk 08:08, 27. Feb. 2014 (CET)
@Millbart: Zur Beurteilung habe ich mal die Vorlageneinbindungen auslesen, für Gewinne sind es 807 Einbindungen, für Produkte 5328 Einbindungen (jeweils mit "unausgefüllten" Einbindungen). Das sind noch nicht alle, die Kleinschreibungen der Parameter fehlen, soll nur vorerst einen Überblick liefern. </ref> kommt bei den Gewinnen 48 mal vor, bei den Produkten 10 mal. --sitic (Diskussion) 23:38, 27. Feb. 2014 (CET)
Cool, danke für die Info. Wenn es möglich wäre eine Liste der Artikel mit Einzelnachweisen zu bekommen wäre das super. Bisher sieht es so aus als ließe sich das noch ganz gut manuell handhaben. Grüße --Millbart talk 23:50, 27. Feb. 2014 (CET)
@Sitic: Mir ist leider gerade erst aufgefallen, dass der auch schon diskutierte Parameter "Bilanzsumme" noch nicht entfernt wurde. Wäre es möglich, ihn einem Abwasch mitabzuräumen? Die entsprechende Diskussion ist hier. Danke und Grüße --Millbart talk 18:39, 2. Mär. 2014 (CET)
Hallo, ich habe dich nicht vergessen, leider ist in den letzten Tagen etwas dazwischen gekommen weshalb ich um etwas Geduld bitten muss, bis ich mich genauer damit beschäftigen kann. Grüße sitic (Diskussion) 22:46, 5. Mär. 2014 (CET)
Moin @Sitic:, keine Hektik. :-) --Millbart talk 21:37, 10. Mär. 2014 (CET)

@Sitic: Ist das hier erledigt? --Krd 19:22, 1. Dez. 2014 (CET)

Nein, ich habe mich leider schon lange nicht mehr darum gekümmert, schaue es mir bald aber mal wieder an. Grüße sitic (Diskussion) 00:55, 3. Dez. 2014 (CET)

MAK-Werte auslesen und in Infobox einfügen[Bearbeiten]

Die SUVA veröffentlichte unter Grenzwerte am Arbeitsplatz 2014 (S. 40–122) eine ausführliche Liste von MAK-Werten. Hat jemand die Möglichkeit, die Werte auszulesen und anhand des Substanznamens und/oder der CAS-Nummer in die {{Infobox Chemikalie}} einzufügen (inkl. Einzelnachweis)? --Leyo 00:02, 15. Apr. 2014 (CEST)

Wenn es irgendwem gelingen sollte die Daten in maschinelle verwertbarer Form aus dem PDF-Dokument zu extrahieren, wäre der Abgleich mit den Artikeldaten für mich machbar. Vielleicht lohnt es sich mal anzufragen, ob man die Daten auch im Rohformat bekommen kann, also die Datengrundlage zur Erstellung dieses PDF-Dokuments.--Cactus26 (Diskussion) 14:32, 22. Apr. 2014 (CEST)
Unter DOI:10.1002/9783527682010 gäbe es eine alternative Quelle. Ist diese ev. besser geeignet? --Leyo 22:33, 10. Sep. 2014 (CEST)
Evtl. auch anmailen, ob man das nicht als Exceldatei bekommt? ÅñŧóñŜûŝî (Ð) 18:31, 16. Sep. 2014 (CEST)
Imho wäre es sinnvoller, die Werte in Metadatenvorlagen abzulegen, bzw. sobald dazu Klarheit besteht, auf Wikidata zu deponieren. Allerdings kann man aus dem Pdf keine Liste generieren, die bottauglich wäre, bzw. als Metadatenvorlage verwendet werden könnte. --Septembermorgen (Diskussion) 20:52, 16. Sep. 2014 (CEST)
Deswegen meinte ich ja eine Excel-Datei, denn aus der lassen sich die Daten bot- oder WD-tauglich extrahieren. Wikidata erscheint mir hier aber sehr mühsam. Evtl. geht es auch mittels Unterseite der Infobox, dann benötigt man den Bot nur für das Entfernen der direkten Angabe aus den Artikeln. Eine Unterseite der Vorlage kann auch mit Lua-Modul arbeiten. ÅñŧóñŜûŝî (Ð) 20:00, 18. Sep. 2014 (CEST)

Wikipedia:Redundanz/Knacknüsse - per Bot erstellte Liste[Bearbeiten]

Wikipedia:Redundanz/Knacknüsse wurde anscheinend mal händisch erstellt und dann mehr oder weniger gepflegt. Jedenfalls scheint es recht aufwändig. Mein Vorschlag daher: Kann nicht ein Bot solch eine List erstellen. Und zwar: Grundgesamtheit sind alle Artikel, die aktuell einen Redundanzbaustein haben. Für diese Artikel wird Version für Version geprüft, seit wann sie ununterbrochen einen Redundanzbaustein tragen und das entsprechende Datum gespeichert. Der Bot erstellt dann eine WP:Liste der am längsten bestehenden aktuellen Redundanzen. Diese kann dann gerne in regelmäßigen Abständen aktualisiert werden.

Problemchen bei dem Vorschlag: Es ergibt sich eine Artikelliste, keine Liste der "Redundanzfamilien". Da das aber denke ich schwieriger zu lösen ist mein obiger Vorschlag. Denn manchmal kommen zu 2er-Redundanzen ja noch weitere Redundanzen dazu etc.

Ich bin gespannt. --Zulu55 (Diskussion) Unwissen 09:47, 15. Jul. 2014 (CEST) (Eine themenverwandte Anfrage gab es schon mal unter Wikipedia:Bots/Anfragen/Archiv/2009-1#.C3.9Cbersicht_der_Redundanzen_erstellen., damals insbesondere von Benutzer:Merlissimo bearbeitet.) --Zulu55 (Diskussion) Unwissen 09:54, 15. Jul. 2014 (CEST)

Artikel mit Interwiki-Links im Quelltext zuständigen Projekten zuordnen[Bearbeiten]

Welcher Botbetreiber könnte diese Liste von Artikeln mit Interwiki-Links extrahieren und thematisch aufteilen? Dann könnten die Teillisten an die zuständigen Projekte/Redaktionen/Portale weitergereicht werden. --Leyo 00:45, 1. Aug. 2014 (CEST)

Die meisten Fälle hatte ich unter dem Punkt Interwiki-Konflikt in meinen Listen (also die Fälle davon, wo die automatischen Bots fehlschlagen). Darauf gab es mehrere Beschwerden, dass man auf dewiki nicht für wikidata-Probleme zuständig sei. Merlissimo 00:53, 1. Aug. 2014 (CEST)
Hm… Korrekte Interwikis in de-WP-Artikeln erachte ich schon als Dienstleistung an (mehrsprachigen) Lesern.
Geht denn die Anzahl der betroffenen Artikel zurück oder stagniert sie? Gibt's dazu Statistiken? --Leyo 01:04, 1. Aug. 2014 (CEST)
Ich hatte nach dem Beschwerden die Abfrage auf BKS, Frau, Mann und Intersexuelle beschränkt, wo die Fälle sehr klar sein sollten. Der Punkt Langlink-Konflikt auf Wikipedia:WikiProjekt_Begriffsklärungsseiten/Fließband/Aktuelles sieht noch recht voll aus.
Wenn das Feature wieder gewünscht werden sollte, kann ich es leicht wieder einführen. Dafür brauche ich dann aber auch ein klares Votum der Community, so dass die Kritiker (die sich meist schneller melden) überstimmt werden. Du bist bis jetzt der Einzige. Merlissimo 01:16, 1. Aug. 2014 (CEST)
Ich würde mich um die Hausviecher kümmern. Wäre gut, wenn ich zur Not Haushunde und Pferde ausklammern könnte, aber gerade im Bereich Geflügel gibt es zwischen den Verbänden Kontinentaleuropas und dem englischen Sprachraum (GB und USA und selbst zwischen PCGB und APA zum Teil erhebliche Unterschiede, wie. z. B. bei der Pekingente.)
Ziel: Benutzer:PigeonIP/Haustiere oder eine neue Unterseite auf Data: d:User:PigeonIP/Haustiere --PigeonIP (Diskussion) 07:39, 1. Aug. 2014 (CEST)
Ich hätte gerne Listen für die Katbäume Chemie und Schweiz. Weitere Katbaum-Listen könnte ich „verteilen“. --Leyo 03:02, 16. Aug. 2014 (CEST)
Ich habe eine neue Teilliste LLK2 eingeführt, der aber explizit aktiviert werden muss und standardmäßig nicht angezeigt wird (also Wert beim LISTS-Parameter bei MerlBot-Worklist ergänzen). Inhalt sind die Interwikikonflikte, die nicht von der Teilliste LLK mit den oben erwähnten KAT-Beschränkungen abgedeckt werden. Merlissimo 10:59, 18. Aug. 2014 (CEST)
Danke, ich hab's eingebaut. Mal gucken… --Leyo 21:29, 18. Aug. 2014 (CEST)
Uff, sooo viele hätten's dann doch nicht sein müssen… :-( --Leyo 22:53, 18. Aug. 2014 (CEST)

@Leyo: auf Benutzer:Inkowik/Wikidata gibt es etwas Statistik. Gruß, IW 17:53, 18. Aug. 2014 (CEST)

Danke. Die betroffenen Seiten nehmen ab, aber ziemlich langsam… --Leyo 21:29, 18. Aug. 2014 (CEST)

Noch eine Anmerkung: Die betroffenen Artikel enthalten meist Interwiki-Links auf Abschnitte. Das kann man natürlich nicht auf Wikidata übernehmen, allerdings sollen die wohl auch nicht aus den Artikeln entfernt werden. 85.212.59.26 21:38, 28. Aug. 2014 (CEST)

MerlBot könnte Interwiki-Links auf Abschnitte ggf. aussortieren, sofern dies gewünscht wäre. --Leyo 02:46, 29. Aug. 2014 (CEST)
Ich melde ja nur Konflikte und nicht alle lokalen Langlinks. Insofern sind reine lokale vorhandene Anker-Langlinks kein Problem in der Wartungsliste. Erst wenn Wikidata einen anderen Link (z.B. einfach ohne Anker) enthält wird es zu einem Problem, das gemeldet wird. Merlissimo 11:02, 9. Sep. 2014 (CEST)

Toolserver → Toollabs[Bearbeiten]

Auf unzähligen Seiten sind noch Toolserver-Tools verlinkt, obwohl die dort nicht mehr vorhanden sind bzw. nach Toollabs umgezogen sind. Es fände es sehr hilfreich, wenn zumindest für die häufig verlinkten Tools die Links per Bot angepasst werden könnten. Ich würde ein Vorgehen nach Namensräumen vorschlagen:

  • (Seite): wohl nicht selten direkt im Quelltext drin
  • Vorlage: durchführen
  • Kategorie: durchführen
  • Hilfe: abzuklären
  • Wikipedia: durchführen, falls keine Diskussionsbeiträge enthalten sind (auf (CET)/(CEST) prüfen)
  • Benutzer: würde ich befürworten

--Leyo 00:11, 7. Aug. 2014 (CEST)

Links auf die Stimmberechtigung tools:~guandalug/tools/stimmberechtigung.php und tools:~chm/stimmberechtigung.php. Die meisten davon auf gesperrten Seiten. Am besten durch Vorlage Vorlage:Stimmberechtigt ersetzen. --Nachcommonsverschieber (Diskussion) 11:54, 30. Aug. 2014 (CEST)


Ich habe mittlerweile alle erreichbaren Einzelstücke gefixt oder ansonsten kategorisiert; auch unter Mitwirkung von Benutzer:Nachcommonsverschieber. Ich habe alle URL überflogen.

  • Statistik:
    • Es gibt heute insgesamt rund 42.000 URL im Projekt.
  • Namensräume:
    • Wir haben eine allgemeine Praxis, wie wir bei solchen Fixereien vorgehen:
      • Hier: Nur noch Namensräume 4, 10, 14, 100;
      • Ausschluss bei /Archiv im Seitennamen;
      • auch nicht AK, FzW, LK, MB (CU, SG, SP, VM, WP:Administ... haben /Archiv/).
    • Auf gesperrten Seiten, Diskussionen, in Archiven längst vergessener Angelegenheiten wird nicht mehr masseneditiert. Es ist auch völlig Wurscht, ob das Stimmberechtigungstool zu einer Wahl, die 2009 mal stattgefunden hatte, und wo der Gewählte schon vor zwei Jahren die Knöpfe wieder abgegeben hatte, jetzt noch auf Klick die Stimmberechtigung feststellen kann. Sollte das wirklich sechs Jahre später jemanden interessieren (Was will man damit anfangen? Was für Konsequenzen hätte das?), dann können die Daten in ein aktuelles Stimmberechtigungstool geworfen werden. Und ein Editcount in einer Angelegenheit von 2007 lieferte damals die Benutzerbeiträge bis 2007, heute die bis 2014; die damaligen Zahlen werden nicht mehr reproduziert. An einer FzW von 2008 herumzulinkfixen ist höherer Blödsinn.
    • Benutzer: Die können ihre Links selbst fixen, sofern sie noch aktiv sind; WP:LT hilft gern. Die überwiegende Zahl der Benutzer ist nicht mehr aktiv, und der Rest macht einen Zwergenaufstand, wenn ein Bot in ihren Seiten herumpfuscht.
    • Artikel, Hilfe, MediaWiki: Alle bekannt und kategorisiert. Zurzeit kein Fix mehr möglich. Artikel sind weniger als 20. Datei gibt es praktisch nicht (mehr); wenn WP:LT/giftbot/weblinksuche hoffentlich mal aus dem Streik kommt, kann man die ein oder zwei Dateibeschreibungsseiten noch mal suchen.
  • Arbeitsschwerpunkt:
    • Das sollte die Unterstützung der Portale, Redaktionen, WikiProjekte sein; die benötigen für ihre tägliche Wartungsarbeit Werkzeuge, insbesondere Catscan.
    • Die haben alle voneinander abgeschrieben und verwenden vielhundertfach URL mit gleicher Struktur, nur unterschieden durch:
      • Kategorien (Vorsicht: Separator zwischen mehreren Kategorien nicht mehr Pipe, sondern %0D%0A)
      • Unterkat-Tiefe
      • Alter in Stunden
      • Maximalgröße von Stubs
      • Linkanzahl von Stubs
    • Es gibt 7800 nicht mehr funktionierende URL auf
      //toolserver.org/~daniel/WikiSense/CategoryIntersect.php?wikilang=de&wikifam=.wikipedia.org&basecat=*-*-*-*-*&basedeep=.....&go=Scannen&userlang=de
    • Sie können zu jeweils mehreren Hundert gleichen Schemas ersetzt werden durch
      {{fullurl:toollabs:catscan2/catscan2.php|project=wikipedia&language=de&categories=*-*-*-*-*&...........&interface_language=de&doit=1#results}}
      • Verbreitet ist etwa: &mode=rc&hours= für „Neue Artikel“, jetzt max_age= mit only_new=1.
      • Ebenso öfters &mode=ss&size= und mehr für Stubs, jetzt smaller=
      • Trivial ist Ersatz von ~magnus/catscan_rewrite.php – Parameter sind gleich.
    • Nur in Portalen auf rund 210 Seiten:
      //toolserver.org/~erwin85/randomarticle.php?
      durch
      {{fullurl:toollabs:erwin85/randomarticle.php| und hinten dran }}
    • Bei vielen Portalen/Red. gibt es
      ~magnus/deep_out_of_sight.php?
      und
      ~magnus/deep_insight.php?
      als
      {{fullurl:toollabs:sighting/deep out of sight.php|
      und
      {{fullurl:toollabs:sighting/sighting/deep insight.php|
    • Bei knapp 50 WikiProjekten gibt es trivialen Ersatz für
      //toolserver.org/~kolossos/templatetiger/tt-table4.php?
  • Um die Beos nicht zu ersäufen, sollte versucht werden, nach Rumprobieren an Einzelschicksalen in einem automatischen Lauf möglichst viele URL in einem Edit zu fixen. Aber das wissen Botbetreiber ja selbst.
  • Ich hätte gern die Form mit {{fullurl:toollabs:, einer Pipe und hintendran irgendwo noch }} – falls denen eines Tages einfällt, auf wmftools.org umzurüsten, hätten wir schon mal die richtige URL und keinen Zoff mit Weiterleitung, CORS, unerlaubter Domain. (Die Domain scheint verkäuflich zu sein; ob man sie sich als Faustpfand sichern sollte?)
  • Insgesamt schätze ich, dass sich bei 10 % der URL (also 4000–5000) der Aufwand für eine Reparatur lohnen würde, weil mit den Tools noch gearbeitet wird. Der Rest steht auf Seiten, mit die nicht mehr genutzt werden, die niemand mehr liest, und die voller redlinks sind; oder die in Eigenverantwortung noch aktiver Benutzer liegen. Gerade letztere sind auch völlig bunt und individuell und können nicht systematisch repariert werden.

Liebe Grüße --PerfektesChaos 22:39, 2. Sep. 2014 (CEST)

Danke für deine umfassenden Ausführungen!
Einen Punkt sehe ich anders als du: Die Mehrheit der Benutzer würde sich bestimmt über ein Linkfixen freuen. Die wohl wenigen Ausnahmen können ja den Bot revertieren. Ich jedenfalls würde es schätzen, wenn die toten Links auf meiner Benutzerseite (sowie ggf. auch in meinen .js-Seiten) aktualisiert würden. --Leyo 22:38, 3. Sep. 2014 (CEST)
Die sind aber nicht schematisiert, sondern sehr individuell. Und stundenlang Leuten hinterherzubasteln, die schon seit fühf Jahren nicht mehr aktiv sind, während die Portale auf die Wartung warten, ist wohl nicht Sinn der Sache.
Da sich übrigens kein Bot rührt, habe ich übrigens mal begonnen, ein gutes 1000 der CategoryIntersect-URL auf catscan2 umzuschreiben.
VG --PerfektesChaos 16:15, 12. Sep. 2014 (CEST)

i Info: Es gibt auch noch über 2000 tools.wikimedia.de – dabei handelt es sich um eine funktionsidentische Weiterleitung auf toolserver.org aus der Frühphase.

Ich habe in einer kleinen Marathon-Schlacht 700 Seiten mit CategoryIntersect editiert und diesen, soweit in catscan2 konvertierbar, weitgehend abgearbeitet. Ein paar Portale und Redaktionen könnten noch übrig sein; der Rest sind Archive, LD, Disku und Benutzer. Insgesamt sind wohl um 2000 dieser URL unmittelbar gefixt worden; dazu etwas trivialer Beifang plus Syntaxfehler. Aus der Statistik sind eher 2500 URL verschwunden, weil die Seiten teils dreifach ineinander eingebunden sind.

Jetzt habe ich für eine Weile keine Lust mehr. --PerfektesChaos 13:24, 15. Sep. 2014 (CEST)

Weblinks auf nicht mehr funktionierende Online-Version der Encyclopedia Britannica korrigieren[Bearbeiten]

1911encyclopedia.org, eine Online-Version der Encyclopedia Britannica von 1911, ist down, wird aber im ANR 700-mal verlinkt. Per Bot liesse sich ggf. eine der folgenden Optionen umsetzen:

Die beiden ersten Varianten wären am besten, aber wohl auch am schwierigsten. --Leyo 00:54, 27. Aug. 2014 (CEST)

auf Achive.org dürfte die gesammte Ausgabe liegen: <https://ia600809.us.archive.org/21/items/1911britannicatiff/>, bzw. <https://archive.org/details/EncyclopaediaBritannicaDict.a.s.l.g.i.11thed.chisholm.1910-1911-1922.33vols> Das Problem ist, wie man das auf vernünftige Weise verlinkt.  Frohes Schaffen — Boshomi ☕⌨☺  19:23, 28. Aug. 2014 (CEST)
Puh, keine Ahnung… --Leyo 00:10, 10. Sep. 2014 (CEST)
Der 1. Weblink taugt gar nichts. Wer kann schon zum einmaligen nachschauen ein 23-GByte-Tar-Archiv gebrauchen.
Der 2. linkt auf eine laienhafte Archivierung. Die direkte Auflistung des Ordners hier zeigt, dass die 33 Bände nur als PDF-Dateien vollständig, aber inkonsistent benannt sind. Andere Formen, insbesondere der Onlinezugriff auf Seiten, sind unvollständig (nur 22 Bände konvertiert). Ergo auch kaum zu gebrauchen. Da hat jemand mittendrin die Lust verloren und aufgehört... Darüber hinaus sind die Links auf der Webseite unsortiert und einige PDFs haben mehrere Gigabyte (bis 4,4 GByte), was selbst bei schnellen 25 MBit/s eine Downloadzeit von 25 bis 30 Minuten bewirkt... eigentlich auch unbrauchbar. Hier könnte man allenfalls eine Vorlage schreiben, welche die richtige PDF des vollständigen Sets heraussucht und den Link (mit Dateigröße, bis 300 MByte) angibt.
ÅñŧóñŜûŝî (Ð) 19:13, 14. Sep. 2014 (CEST)
Nachtrag: Die Linkliste wäre:
Präfix (Ordner) https://ia600406.us.archive.org/26/items/EncyclopaediaBritannicaDict.a.s.l.g.i.11thed.chisholm.1910-1911-1922.33vols/
Dateien:
Dateiname Datum Größe
01.EncycBrit.11th.1910.v.1.A-AND..pdf 05-Jan-2010 04:42 94.299.612
02.EncycBrit.11th.1910.v.2.AND-AUS..pdf 06-Jan-2010 05:17 118.241.117
03.EncycBrit.11th.1910.v.3.AUS-BIS..pdf 15-Mar-2011 04:19 112.123.985
04.EncycBrit.11th.1910.v.4.BIS-CAL..pdf 05-Jan-2010 05:27 104.923.429
05.EncycBrit.11th.1910.v.5.CAL-CHA..pdf 05-Jan-2010 05:49 113.600.623
06.EncyBrit.11th.1910.v.6.CHA-CON..pdf 05-Jan-2010 06:08 110.372.183
07.EncycBrit.11th.1910.v7.CON-DEM..pdf 06-Jan-2010 05:37 124.465.637
08.EncycBri.11th.1910.v8.DEM-EDW..pdf 05-Jan-2010 07:13 153.333.857
09.EncyBrit.11th.1910.v.9.EDW-EVA..pdf 05-Jan-2010 07:29 93.868.661
10.EncycBritan.1911.v.10.EVA-FRA..pdf 06-Jan-2010 06:06 122.983.626
11.EncycBrit.11th.1911.v.11..FRA-G..pdf 05-Jan-2010 08:06 116.631.036
12.EncycBrit.11th.1911.v.12.GIC-HAR.pdf 05-Jan-2010 08:56 123.398.255
13.EncycBrit.11th.1911.v.13.HAR-HUR..pdf 05-Jan-2010 09:16 126.011.033
14.EncycBrit.11th.1911.v.14.HUS-ITA..pdf 05-Jan-2010 12:31 117.659.922
15.EncycBrit.11th.1911.v.15.ITA-KYS..pdf 05-Jan-2010 13:48 126.762.981
16.EncycBri.11th.1911.v16.L-LOR..pdf 05-Jan-2010 14:47 140.176.819
17.EncycBrit.11th.1911.v17.LOR-MEC..pdf 05-Jan-2010 15:15 175.467.820
18.EncycBrit.11th.1911.v.18.MED.MUM..pdf 05-Jan-2010 15:38 86.194.969
19.EncyBrit.11th.1911.v.19.MUN-ODD.pdf 05-Jan-2010 16:03 106.053.558
20.EncycBrit.11th.1911.v.20.ODE-PAY.pdf 05-Jan-2010 16:37 118.806.506
21.EncycBrit.11th.1911.v.21.PAY-POL..pdf 06-Jan-2010 06:39 138.539.929
22.EncycBrit.11th.1911.v22.POL-REE..pdf 06-Jan-2010 06:57 115.389.905
23.EncycBrit.11th.1911.v23.REF-SAI..pdf 06-Jan-2010 07:22 122.869.508
24.EncycBrit.11th.1911.v24.SAI-SHU..pdf 06-Jan-2010 07:53 107.941.327
25.EncycBrit.11th.1911.v25.SHU-SUB..pdf 06-Jan-2010 08:20 148.830.473
26.EncycBrit.11th.1911.v.26.SUB-TOM..pdf 06-Jan-2010 13:22 153.523.501
27.EncycBrit.11th.1911.v.27.TON-VES..pdf 06-Jan-2010 14:38 107.406.039
28.EncycBrit.11th.1911.v.28.VET-ZYM..pdf 06-Jan-2010 15:02 138.579.455
29.EncycBrit.11th.1911..11th.v29.Index..pdf 07-Jan-2010 06:51 126.564.824
30.EncycBrit.12th.1922.v30.nv1.ABB-ENG..pdf 06-Jan-2010 16:47 191.404.607
31.EncycBrit.12th.1922.v31.nv2.ENG-OYA..pdf 06-Jan-2010 17:23 229.989.964
32.EncycBrit.12th.1922.v32.nv3.PAC-ZUL..pdf 07-Jan-2010 06:19 255.097.261
33.ReadersGuideEncycBrit.v33.1913..pdf 07-Jan-2010 05:38 17.920.388
ÅñŧóñŜûŝî (Ð) 19:33, 14. Sep. 2014 (CEST)
* Wenn man das ordentlich machen will, sollte man die großen Files downloaden, die jeweils best verfügbare Qualität in Einzelseiten-Tiff-s zerlegen, mit ImageMagick die Tiff-s noch ein wenig aufbessern und mittels tesseract text und hocr-Files anlegen und das Ergebnis Seite für Seite auf Commons hochladen.
* Ist das erledigt bräuchte man noch ein Tool zum Editieren der hocr-Files direkt über dem Image. So ein Tool hätte recht offensichtlich großen langfristigen Nutzen, müsste aber von der Mediawiki entwickelt werden. Damit könnte man dann ganze Bibliotheken gemeinfreier Bücher online nutzbar und längerfristig weitgehend fehlerfreie durchsuchbare Texte daraus erstellen. Ohne Editiermöglichkeit sind die Ergebnisse leider recht fehleranfällig, wie man auch bei Archive.org sieht. Halbfertige Ansätze als Firefox-addon existieren, funktionieren aber zumindest bei mir nicht.  Frohes Schaffen — Boshomi ☕⌨☺  20:45, 15. Sep. 2014 (CEST)

Hilfe im Projekt Tennis[Bearbeiten]

Hallo Botexperten, im WikiProjekt Tennis Pflegen wir Navigationsleisten, die die Top 10 Spieler eines jeweiligen Landes enthalten. Ein Bot könnte uns dabei helfen, die Navileisten nach der Aktualisierung in die verlinkten Artikel einzubauen und aus Artikel, die nicht mehr verlinkt sind, herauszunehmen. Eine Sammlung der Navileisten findet man auf der Benutzerseite von SuperAle unter Benutzer:SuperAle/ToDo nach der Überschrift Navigationsleisten Die zehn bestplatzierten Tennisspieler. Gruß, Korrektor123 (Diskussion) 17:39, 1. Sep. 2014 (CEST)

Hier zwei Sammelseiten mit ALLEN Navigationsleisten, die betroffen sind: von der ATP und von der WTA. Der Link oben enthält nur die ATP-Leisten und auch Navileisten zu Turnieren, die nicht betroffen sind. Wir wollen doch die Ladies nicht vergessen, lieber Korrektor ;-) --DonPedro71 (Diskussion) 21:44, 1. Sep. 2014 (CEST)
Man sollte sich eher mal fragen, wie sinnvoll Navigationsleisten sind, die per Bot aktualisiert werden müssen. Dieses Pseudo-Auswahlkriterium "Top 10 Spieler" ändert sich doch permenant. Heute ist ein Spieler drin und morgen wieder draussen und jedes Mal wird die Navigationsleiste eingefügt und wieder entfernt (und selbst angepasst). So eine Navigationsleiste sollte schon halbwegs stabil sein, um brauchbar zu sein.--213.61.99.155 12:16, 9. Sep. 2014 (CEST)
Das sollte man sich wirklich fragen: Wikipedia:Löschkandidaten/9. September 2014#Vorlagen --FannyRoertle (Diskussion) 12:40, 9. Sep. 2014 (CEST)
Man kann sich die Arbeit auch schaffen. Eigentlich sollte für sowas Wikidata zuständig sein… --Leyo 00:15, 10. Sep. 2014 (CEST)

Wikipedia:Artikel, die es in allen Wikipedias geben sollte/Erweitert aktualisieren[Bearbeiten]

Im Rahmen eines Kurier-Artikels rückte die erweiterte Liste in den Fokus. Sie ist allerdings auf den Stand von September 2012, seitdem hat sich die ursprüngliche Meta-Liste sehr, sehr stark geändert, doch per Hand ist eine Aktualisierung der vielen Daten kaum zu schaffen.

  • Die Links müssten von Wikidata auf deutsche Wikipedia-Artikel umgestellt werden
  • man müsste die bereits in der veralteten Version vorhandenen Lesenswert-, Exzellent- und Gesprochen-Versionen-Bapperl aktualisieren
  • Bei Rotlinks müssten dann auch ein Interwiki-Link zum en-Artikel (alternativ: Wikidata-Eintrag) hinzugefügt werden.

Kann das ganze auch per Bot ausgeführt werden?--CG (Diskussion) 18:22, 1. Sep. 2014 (CEST)

Referenzierungsfehler finden[Bearbeiten]

Wird innerhalb eines Artikels mehrfach der gleiche ref-name verwendet, so wird unter "Einzahlnachweise" schließlich nur eine Angabe angezeigt:

Quelltext Anzeige
Das Auto ist rot<ref name="Auto">Quelle rotes Auto</ref> Das Auto ist rot[1]
Das Auto ist blau<ref name="Auto">Quelle blaues Auto</ref> Das Auto ist blau[1]
Einzelnachweise
  1. a b Quelle rotes Auto

Da ich schon mehrfach über diesen Fehler gestolpert bin, die Frage an Euch, ob mal jemand systematisch im Quelltext nach doppelt definierten ref-names suchen und eine Fehlerliste erstellen will.--Mabschaaf 08:53, 23. Sep. 2014 (CEST)

@Mabschaaf: auch inklusive mehrfach definiert, aber gleichem Text? Habe mal ein Teildump ausgewertet und habe jetzt bei ~20000 Seiten schon 695 doppelt oder mehrfache definierte ohne Unterscheidung zwischen gleichem oder unterschiedlichem Reftext. Hier das Ergebnis der Teilauswertung: Benutzer:Se4598/BA_NamedRefs --se4598 / ? 23:14, 12. Okt. 2014 (CEST)
@se4598: Vielen Dank für Deine Mühe. Dass das Problem solche Dimensionen hat, hätte ich nicht erwartet. Puh... Evtl. könntest Du beide Fälle in getrennten Listen aufnehmen?
  • Die eine (Dopplungen mit gleichem Text) könnte mM ganz problemlos ein Bot abarbeiten (falls dazu hier noch ein wenig Zustimmung kommt, da es zunächst eine kosmetische Korrektur ohne sichtbare Auswirkungen ist).
  • Bei der Zweiten (unterschiedliche Nachweise, die gleich benannt sind und daher nicht getrennt angezeigt werden) ist es mM zwingend erforderlich, aktiv zu werden. Auch die sollte ein Bot abarbeiten können, wobei die Herausforderung sein dürfte, in Fällen wie bei Sandra Bullock, die <ref name="Rotten Tomatoes" gleich 31× für unterschiedliche(!) URLs nutzt, festzustellen, ob vielleicht doch zwei exakt gleiche dabei sind.
Viele Grüße --Mabschaaf 08:48, 13. Okt. 2014 (CEST)
@Mabschaaf: Mein Programmcode/regulärer Ausdruck deckt die fast alle Fälle von benannten EN ab, Sonderfälle wie zusätzlich gruppierte EN werden aber nicht gefunden, ist aber auch so genug Arbeit da ;-).
Von 2.951.082 untersuchten Artikeln haben 7,8 % benannte Einzelnachweise, wovon wiederum nun 5,7 % (13.177) von dieser Abfrage als Treffer erkannt wurden. Der Suchlauf wurde auf einem Datendump vom 6.10. ausgeführt.
Die komplexen Fälle sind nicht alle unbedingt schwierig oder inhaltlich falsch, sondern ein größerer Teil besteht auch aus "leeren" Refs (<ref name="refA"></ref>), die aber meistens wie die Dopplungen kein sichtbaren Fehler darstellen.
Nun, hier die Listen: einfache Dopplungen mit gleichem Text, komplexere Fälle
Ist ein bisschen Arbeit, aber viele der "komplexeren" Fälle kann man auch ohne Fachkenntnis auflösen. Vielleicht magst du ja ein Aufruf starten? Die Seiten dürfen frei bearbeitet werden und erledigte Fälle entfernt werden.
Grüße --se4598 / ? 21:12, 15. Okt. 2014 (CEST)
Bevor ich hier versuche, andere Benutzer zur händischen Abarbeitung zu bewegen, hätte ich gerne eine Aussage von einem Botbetreiber, ob das auch vollautomatisch zu lösen wäre (evtl. unter Vernachlässigung der komplexen Fälle).--Mabschaaf 09:05, 16. Okt. 2014 (CEST)

Das Ganze gehört eigentlich als FR in die MediaWiki-Extension, die ohnehin fehlerbehaftet ist.

  • Eine erneute Definition zu einem Bezeichner mit identischem Text ist bereits Grund für eine rote Warnmeldung.
  • Eine erneute Definition zu einem Bezeichner mit abweichendem Text ist Grund für eine rote Fehlermeldung nebst Eintrag in eine Wartungskategorie.
  • Die Extension kennt eine Liste aller Bezeichner mit allen enthaltenen Texten und könnte mit Leichtigkeit diese Fehlzuordnungen feststellen.
  • Es war aber ein in großer Zahl geäußerter Wunsch der Benutzer der deutschsprachigen Wikipedia, all diese im Zusammenhang mit den references auftretenden lästigen roten Meldungen zukünftig wegzulassen.
  • Diesem Wunsch wurde auch durch die WMF nachgekommen; Resultat unter HD:EN #braucht's kein references /> mehr?.

LG --PerfektesChaos 13:44, 19. Okt. 2014 (CEST)

@PerfektesChaos: Es ist und bleibt einfach falsch. Vielleicht mag einer der technisch versierteren einen Bug dafür aufmachen (ping an Benutzer:Umherirrender), bis das aber einem MW-seitigen Fix zugeführt wird, muss ich vermutlich noch viele Kerzen auf Torten ausblasen.
Mit der references-Wartungskat/Fehlermeldung hat das mM auch nur bedingt zu tun, ich würde das nicht in einen Topf werfen.
Die eleganteste Lösung wäre mM, wenn einer der Fehlerlisten-Betreiber (ping an Benutzer:Merlissimo, Benutzer:Aka) sich dem Problem annehmen würde, regelmäßig danach sucht und auf Wartungslisten verteilt.--Mabschaaf 10:58, 20. Okt. 2014 (CEST)
„Die eleganteste Lösung“ – ganz klar: nein.
  • Das ist eine originäre Funktionalität der MW-Software, die schon im Moment der Seitenvorschau weiß und melden kann, dass ein solches Problem erkennbar ist, und sogar vor dem Abspeichern noch den Autor auf das Problem hinweisen kann (rote Meldung). Bleibt es stehen, kann sie ggf. auch ohne Fehlermeldung ohnehin in die mittlerweile für solche Fälle eingerichteten Wartungskats einsortiert werden: Kategorie:Wikipedia:Syntaxfehler durch MediaWiki-Komponente erkannt.
  • Es ist mir ohnehin unbegreiflich, warum man bei der Bearbeitung ganzer Seiten nicht den roten Warnhinweis betreffend fehlendem references zumindest in der Seitenvorschau dem Autor zeigt; dass man das hässliche Zeugs dann nicht tagelang in der Artikel-Ansicht der Weltöffentlichkeit präsentiert, kann ich wenigstens noch nachvollziehen.
Unsere Bots werden pro Projekt von Einzelpersonen betrieben und räumen mühsam Strukturfehlern hinterher. Das ist okay, solange es sich um Besonderheiten der deutschsprachigen Wikipedia geht; etwa um sprachliche Fehler, logische Fehler beim EInsatz von Vorlagen usw. Aber eine weltweit einheitliche Problematik, die mühelos an der Wurzel zu lösen wäre (Auslösen einer System-Wartungskat), gehört innerhalb MW implementiert und nicht von jedem Projekt einzeln.
Die Cite-Extension für die ref steht sowieso seit Jahren in der Kritik, und es gibt unendliches Gemecker, wie MW das doch alles ganz anders lösen solle und dass Seitenzahlen in den ref möglich sein sollen; allerdings war noch keiner der Meckerköppe in der Lage, ein syntaktisches Konzept vorzulegen, wie zusätzliche Funktionalität überhaupt im Quelltext abgebildet werden solle, geschweige denn allgemeine Zustimmung dafür zu finden.
Bugzilla ist nicht mit mir, aber vielleicht nächstes Jahr mit Phabricator.
VG --PerfektesChaos 11:16, 20. Okt. 2014 (CEST)
Mir geht um eine (elegante) Lösung für sofort, die können Fehlerlistenbetreiber durchaus leisten (zur Not tut es ja schon die Liste von se4598) - händisch gefixt werden müssen die vorhanden Fehler sowieso. Mir ist nicht ersichtlich, warum die Fehler, die offenbar leicht auffindbar sind, nicht an entsprechende Stellen via Fehlerlisten verteilt werden sollten. Oder ein Bot schafft die Aufgabe und räumt halt ein Mal im Monat durch.
Dass das alles natürlich nur eine Krücke ist und dass das Vermeiden von neuen Fehlern dieser Art durch zusätzliche MW-Funktionalität absolut notwendig ist, ist keine Frage. --Mabschaaf 11:29, 20. Okt. 2014 (CEST)

@Mabschaaf: Wie ist der Status hier? Die einfachen Fälle, also die mit gleichem Text, lassen sich mMn auf jeden Fall automatisch reparieren (@Se4598: würdest Du mir ggf. die von Dir verwendeten reg. Ausdrücke geben?). (@PerfektesChaos: Dass das ganze auch durch den Parser selbst aufgedeckt werden könnte (und dass das eine idealere Lsg. wäre), ist keine Frage. Allerdings wäre dann genauso wie bei den doppelten Vorlagenparametern zunächst ein Backlog aufzuarbeiten und es spricht sicher nichts dagegen, damit jetzt schon mal anzufangen.).--Cactus26 (Diskussion) 11:31, 30. Nov. 2014 (CET)

Status: Warten auf einen Botbetreiber, der sich kümmert... also: DICH! ;-) Und ja, alles was Du schreibst, ist völlig korrekt. Natürlich wäre eine zusätzliche Parser-Funktionalität hilfreich - aber noch ist sie nicht da, möglicherweise lange noch nicht. (Hat mal jemand einen Bug aufgemacht??) Die aktuell vorhandenen Fehler sollten mM möglichst zügig und wo immer möglich per Bot beseitigt werden, da sie ja wirklich zu "echten" Fehlanzeigen führen, es sich also keineswegs nur um Quelltextkosmetik handelt. --Mabschaaf 11:38, 30. Nov. 2014 (CET)
Na, wenn ihr schon unbedingt die Fehlfunktionen beim Parsing ausbügeln möchtet, dann könnt ihr ja gleich noch den in den letzten Monaten aufgelaufenen Rückstand bei Kategorie:Wikipedia:Seite mit fehlendem References-Tag mit übernehmen und auch die fehlenden Abschnittsüberschriften nachtragen. Schönen Sonntag --PerfektesChaos 11:50, 30. Nov. 2014 (CET)
PC, ich würde da schon einen Unterschied machen: Die fehlende Überschrift beim references-Tag ist stilistisch unschön, erzeugt aber keinen inhaltlichen Fehler. Das von mir beschriebene Problem führt aber dazu, dass Einzelnachweise komplett "verschluckt" werden. Und das ist ein massives Qualitätsproblem innerhalb der Artikel. Auch wenn die MW-Software den Fehler irgendwann malTM nicht mehr zulassen sollte, bleiben die Altlasten.--Mabschaaf 12:10, 30. Nov. 2014 (CET)
@Cactus26: Ich habe <ref[\s]+name=['"]([^'"]*)['"][\s]*>(.*?)</ref> benutzt (mit Dot auch für Zeilenumbrüche etc.).
Referenzname in Gruppe 1 und dann Inhalt in 2. Ich hatte dabei nur ein, 2 Fälle, bei denen der Wikitext "kaputt" war und daher nachher in Gruppe 2 in etwa die Hälfte des Artikels stand.
Zu Beachtung nachher: Einzelnachweise können auch in Gruppen zusammengefasst werden, da ist eine Doppelung bei versch. Gruppen dann irrelevant. Viele Grüße--se4598 / ? 15:31, 30. Nov. 2014 (CET)
@Se4598: Danke! An die Gruppen hatte ich tats. sogar schon gedacht ;-) Ich würde zuerst die einfachen Fälle mit gleichem Inhalt angehen, habe aber auch schon mal die komplexeren überflogen, auch dort sollte das eine oder andere automatisiert machbar sein. Was meine technische Infrastruktur bisher nicht hergibt, ist so ohne weiteres eine Liste zu erstellen, wie Du es getan hast (ich arbeite bislang nicht mit Datenbank-Dumps). Insofern würde ich jetzt zunächst mich auf Deine Listen beziehen, um effizient die Menge der zur bearbeitenden Artikel einzugrenzen. Langfristig wäre natürlich praktisch, wenn Du diese Listen irgendwann aktualisieren könntest. Wärst Du mit dieser Arbeitsteilung einverstanden? Ich hätte aber auch nichts dagegen, wenn Du die Implementierung eines Korrekturverfahren selbst übernimmst.--Cactus26 (Diskussion) 17:16, 30. Nov. 2014 (CET)

Die Abhandlung der einfachen Fälle (wenn Inhalte gleich oder leer) könnte ich nun abdecken, Beispieledit bei Alkohole: [5]. Dabei taucht ein weiterer Fall auf, wenn man auch "ungequotete" Ref-Names mit einbezieht, dieser ist allerdings nicht automatisiert lösbar,was hier diagnostiziert wird: Benutzer:CactusBot/AnalyzeDuplRefName. Ein weiterer interessanter Aspekt findet sich in Wisent ("Go83") und Kommando Spezialkräfte ("Strategie und Technik S. 23–24"). Dort gibt es ein References-Tag mit Inhalt. Dies ist zu beachten, wenn man ermitteln will, welches das eigentlich wirksame Ref-Tag ist (siehe [6]), das ist aber mein Problem... Spannender ist die Frage, ob man insbesondere im 2. Fall alle benannten Tags in den Inhalt des References-Tag hinein verschieben sollte. Oder, noch progressiver, grundsätzlich alle benannten Ref-Tags in ein gegebenenfalls neu angelegtes References-Tag mit Inhalt verschieben sollte.--Cactus26 (Diskussion) 11:00, 5. Dez. 2014 (CET)

Zu „noch progressiver“ kann ich dir vorhersagen, dass das massiven Ärger mit den „Hauptautoren“ gibt. Vor Jahren hatte ich sowas mal häufiger gemacht, und es taten auch andere, um den Nutzen der Mehrfachreferenzierung und Entlastung des eigentlichen Artikeltextes zu demonstrieren; gab dann aber wohl reichlich Reverts und VM. Verfolge einfach mal ein paar Kilometer HD:EN und du ahnst, was ich meine. Baldiges Wochenende --PerfektesChaos 12:01, 5. Dez. 2014 (CET)
Ja, dachte ich mir, ich wollte es nur erwähnt haben (mMn würde heute niemand am die Idee kommen, es je anders machen zu wollen, hätte es die Funktionalität von Beginn an gegeben). Den Fall Kommando Spezialkräfte halte ich aber tatsächlich für diskutierbar. Wenn es denn schon eins gibt mit Inhalt, dann könnte man ja auch alle benannten dorthin verlagern, die Mischform kann ja nun wirklich niemandem Spaß machen.
Noch was anderes: Bei Oxide habe ich mal untersucht, wie aus einem einfachen Fall, ein komplexerer wird. Und zwar war es für "ABC Chemie" dieser Edit [7]. Das belegt meinen verdacht, dass die Behebung der einfachen Fälle wichtig ist, da sie der Keim der komplexeren sind. Weiter könnte man aus diesem Fall ableiten, dass man die Inhalte als gleich (und damit den Fall als reparierbar) ansehen könnte, wenn er sich nur in der Formatierung und Interpunktion unterscheidet. Zu erhalten wäre in diesem Fall der bisher wirksame Inhalt.--Cactus26 (Diskussion) 12:36, 5. Dez. 2014 (CET)
Ich erinnere mich dunkel, dass vor Jahren das Wikipedia:WikiProjekt Syntaxkorrektur die Konstellation „mehrere ref-Elemente mit gleichem Inhalt“ detektiert hatte (oder das immer noch kann). Daraufhin wurde begonnen, diese Inhalte in einem benannten Element zusammenzufassen, woraufhin die Dauergäste von HD:EN aufschlugen. Argumentation: Man wolle die Seite auch abschnittweise bearbeiten, und dazu bräuchte man in jedem einzelnen Abschnitt das vollständige ref-Element mit vollem Inhalt, und nicht irgend so ein komisches name=Dingsda, bei dem man die Einzelheiten nicht sehen könne.
  • Was funktionieren mag, wenn es sich um statische Ressourcen, namentlich gedruckte Literatur handelt; und dies war die besondere Vorliebe der betreffenden Autoren. Sind es allerdings Weblinks, die ein letztes Abrufdatum haben, und die möglicherweise gefixt werden müssen, dann ist es natürlich bescheuert, die Pflege vielfach pro Artikel vornehmen zu müssen.
Viel Spaß --PerfektesChaos 12:48, 5. Dez. 2014 (CET)
Danke. Auch wenn das Argument mit etwas gutem Willen nachvollziehbar ist, ist die Gefahr der Inkonsistenz objektiv das eindeutig stärkere Argument. Auch bei gedruckter Literatur besteht diese Gefahr (andere Formatierung, neue Auflage). Außerdem: Jedem könnte passieren, dass man verzweifelt, wenn man beim Editieren einen nicht wirksamen Fall erwischt und sich wundert, warum sich am Resultat nichts ändert. Schönes Wochenende.--Cactus26 (Diskussion) 18:22, 5. Dez. 2014 (CET)

Habe nun erste Tests gemacht. Ich habe auch bereits eine Logik für die komplexeren Fälle implementiert, und zwar sollen beim Vergleich der verschiedenen Inhalte der gleichnamigen Ref-Tags Interpunktion und Formatierungen ignoriert werden. Im Einzelnen:

  • Punkt, Komma, Strichpunkt, Doppelpunkt und ein ggf. folgendes Leerzeichen werden ignoriert
  • einfache Hochkomma werden ignoriert
  • doppelte Leerzeichen gelten als eins
  • Wikilinks werden ignoriert

Sind alle Inhalte zu einem Namen sonst gleich, wird der bisher wirksame Inhalt (also der in den Einzelnachweisen angezeigte) beibehalten und der Rest entfernt. Hier ein Test mit 50 Artikeln, die primär einfache Fälle beinhalten [8]. Die dabei nicht korrigierbaren Fälle sind hier: Benutzer:CactusBot/AnalyzeDuplRefName. Ein Beispiel für einen komplexeren Korrekturfall ist in Phänotypische Variation die Quelle "Lange" (s.a. Fall 5.30 hier: Benutzer:Se4598/BA_NamedRefs/complex/1). Ein paar sind möglicherweise noch dabei, die automatisiert korrigierbar wären.--Cactus26 (Diskussion) 12:44, 6. Dez. 2014 (CET)

@Cactus26: Das sieht für die einfachen Fälle mM sehr gut aus - die könnten also schon mal abgearbeitet werden. Bei den komplexeren könntest Du evtl. mit einigermaßen vernünftigem Aufwand noch schauen, ob die inhaltsunterschiedlichen Links mit gleichem ref-name alle nur 1x verwendet werden, dann kann einfach das <ref name="..."> zu <ref> verkürzt werden. Für alle noch komplexeren Fehler ist mM der Aufwand für eine Botprogrammierung zu hoch, das sollte händisch abgearbeitet werden (wobei hierfür die von Dir generierte Liste mM extrem hilfreich ist).--Mabschaaf 16:56, 7. Dez. 2014 (CET)
Danke für Dein Feedback. Zu Deinem Vorschlag: Wenn man die 3 verbliebenen Fälle in Osmose ansieht (siehe Benutzer:CactusBot/AnalyzeDuplRefName). Für den 2. ("ATKINS2006S169") wäre das eine passende Strategie, die Benennung zu entfernen, beim 3. ("CHINARDENS74") wäre es die falsche (die abgekürzten Namen wurden vermutl. nachträglich ausgeschrieben), beim 1. ("MOLUNDERSTAND") weiß man nicht so genau. Wie die Fälle unterscheiden?--Cactus26 (Diskussion) 17:15, 7. Dez. 2014 (CET)
Hm, wenn ich mir das anschaue, ist es wohl gar keine gute Idee, da automatisiert tätig werden zu wollen. Beim ersten ("MOLUNDERSTAND") ist der eine EN mit DOI, der andere mit Seitenzahl, beim dritten ("CHINARDENS74") wäre es tatsächlich nur Geschmacksache (bzw. evtl. an die anderen EN anzupassen), ob jetzt die Vornamen ausgeschrieben werden sollten und beim zweiten ("ATKINS2006S169") unterscheiden sich im Inhalt die Seitenzahlen, der Refname deutet aber auf die gleiche Seitenzahl - hier müsste also sogar recherchiert werden.
Wenn Du nur die ganz einfachen, unzweifelhaften Fälle bearbeitest, wie viele blieben dann denn übrig?--Mabschaaf 17:40, 7. Dez. 2014 (CET)

@Cactus26/all: Danke für deine weitere Arbeit.glass  Ich bin derzeit ziemlich beschäftigt. Falls du/ihr noch was von mir brauchst oder hier noch eine offene Frage ist, zögere aber nicht und ping mich an oder schreib mir bitte auf meine Disk. Viele Grüße --se4598 / ? 23:12, 7. Dez. 2014 (CET)

@Mabschaaf: Wenn ich einbeziehe, dass ein paar der komplexeren Fälle (bei denen erkennbar nur die Formatierung abweicht) auch korrigiert können, bleiben (wenn ich einen Testlauf hochrechne) von den von Benutzer:se4598 ausgewerteten ca. 8600 Seiten mit komplexen Fällen 5000 übrig (das entspricht ca. 8200 Ref-Duplikaten). Ich werde nun mal die verbliebenen ca. 3500 Seiten mit einfachen Fällen bearbeiten lassen. Diese enthalten teilweise auch komplexe Fälle (alle bisher dargestellten Beispiele stammten aus solchen Mischfällen).
Ein Gedanke wäre: Vielleicht ist es auch hier angebracht, eine Vorlage zur Kennzeichnung und Wartungs-Kategorisierung einzuführen. Man könnte redundante Ref-Tag Inhalte, die unwirksam sind, mittels Vorlage einrahmen. Beispiel für Alkohole: <ref name=Bruice1>{{UnwirksamerRefInhalt|1=Paula Yurkanis Bruice: ''Organische Chemie'', Pearson Education Inc., 2007, 5. Auflage, S. 830–831, ISBN 978-3-8273-7190-4}}</ref>. Über Vorlagennamen und weitere Details müsste man natürlich noch diskutieren.
@Se4598: Danke für das Angebot! Bislang kann ich mit Deinen Listen gut arbeiten. Aber (wie oben schon gesagt), wenn diese abgearbeitet sind, wäre ggf. ein Update der Listen sehr hilfreich, da ich selbst über kein effizientes Verfahren verfüge, diese Fälle aus dem gesamten Artikelbestand herauszusuchen.--Cactus26 (Diskussion) 07:52, 8. Dez. 2014 (CET)
@Cactus26: Das ist eine sehr gute Idee, die unwirksamen Ref-Inhalte mit einer Vorlage zu klammern, die eine Wartungskat wirft (die wiederum MerlBot auf die Wartungslisten verteilen könnte). Der vorgeschlagene Name ist mM ok, als Kat käme Kategorie:Wikipedia:Unwirksamer Inhalt in Einzelnachweis in Betracht. Aber wir schon erwähnt halte ich auch Deine Listen für sehr hilfreich, weil dort alle fraglichen Ref-Inhalte für Mensch übersichtlich und vergleichbar direkt untereinander stehen.
Mittelfristig sollten Du und se4598 zu einer regelmäßigen Prüfungs- und Markierungsroutine (monatlich?) kommen, bis diese Art von Fehler durch ein MediaWiki-Update softwareseitig unterbunden wird.--Mabschaaf 08:12, 8. Dez. 2014 (CET)
Habe nochmal mit 1000 Artikeln, die einfache Fälle beinhalten, getestet ([9]). Wenn ich die dabei ebenfalls aufgedeckten komplizierteren Fälle ansehe (Benutzer:CactusBot/AnalyzeDuplRefName), komme ich immer mehr zur Überzeugung, dass das eine gute Sache ist, das anzugehen, denn je länger man redundante Inhalte leben lässt, umso schwieriger dürften die dabei zwangsläufig entstehenden Inkonsistenzen zu beheben sein. Auch Wartungskategorie und -vorlage habe ich wie angedeutet mal ergänzt. Beim Namen habe ich mich noch ein wenig anders entschieden (ich finde den Text "Einzelnachweis" missverständlich, da der Nachweis ja insofern wirksam ist, dass die Fußnote angezeigt wird), zudem muss das gesamte Tag eingerahmt werden, nicht nur der Inhalt (sonst erfolgt keine Kategorisierung,da der Inhalt ja unwirksam ist, was auch die Kategorisierung verhindert würde): Beispieledit für Alkohole. --Cactus26 (Diskussion) 14:08, 8. Dez. 2014 (CET)
  • Eine Vorlage <ref>{{Unwirksamer ref-Inhalt}} einzuführen und einzufügen, wäre ganz okay.
  • Allerdings sollte sie keinen Parameter haben.
    • Der Parameterwert ist für eine globale Auswertung völlig Banane.
    • Das Entfernen dieser Markierung wird aber dadurch unnötig kompliziert; irgendwo werden dann die }} vergessen etc.
  • Sie sollte eine sichtbare Meldung generieren und mit einer Anleitung/näheren Erläuterung verlinkt sein.
    • Grund: Wird später der Abschnitt mit dem Pendant gelöscht oder bei einer von beiden der Bezeichner korrigiert und unterschiedlich gemacht, dann wird sie wieder wirksam, aber sinnlos und die Vorlage muss entfernt werden.
  • Wenn sie unwirksam ist, kann sie dann eigentlich eine Wartungskat werfen?
    • Das könnte eigentlich nur das erste aber wirksame Auftreten.
LG --PerfektesChaos 23:33, 8. Dez. 2014 (CET)
Heißt nach einigem Nachdenken:
  • Es bräuchte ein Pärchen mit zwei verschiedenen Vorlagen, damit die Aktion auch für die Autoren verständlich und handhabbar wird.
    1. <ref>{{ref mit gleichem Bezeichner vorhanden}} beim ersten Vorkommen.
    2. <ref>{{Unwirksamer ref-Inhalt}} bei jedem weiteren Vorkommen.
  • Die unterscheiden sich leicht in der Wartungskat:
    1. schmeißt die ganz normale, dass es halt sowas gibt.
    2. schmeißt einen Alarm, dass inzwischen was geändert wurde und sie jetzt die erste ist; also ihr Name auch nicht mehr stimmt. Hier müsste Wartungspersonal vorrangig eingreifen und die Situation klären.
LG --PerfektesChaos 23:54, 8. Dez. 2014 (CET)
@PerfektesChaos:: Danke für Deine Gedanken, ein anderer Blickwinkel (den man nachvollziehen kann) ist immer hilfreich.
  • Es ist tatsächlich (wie Du auch erkannt hast) nicht möglich, die Vorlage innerhalb des Ref-Tags mit unwirksamen Inhalt zu plazieren, da dann keine Wartungskat. gesetzt werden kann.
  • Bei der Einführung einer zweiten Vorlage steht meiner persönlichen Einschätzung nach der Komplexitätszuwachs in keiner günstigen Relation zum Nutzen
  • Ein weiterer Nachteil bei Einführung einer zweiten Vorlage wäre, dass man immer 2 Stellen anpassen muss. Eine häufige Korrektur besteht aber darin, dass das Dupklikat schlicht einen anderen Namen bekommt.
  • Eine für den Leser sichtbare Fehlermeldung halte ich für zu aggressiv, denn es sind Fälle dabei, bei denen lediglich die Darstellung des wirksamen Inhalts nachgebessert wurde.
  • Das ref-Tag mit der Vorlage einzurahmen macht am deutlichsten, worauf sich der Inhalt bezieht. Wenn man sie davor/dahinter stellen würde, wäre das bei aufeinander folgenden refs nicht klar (außer man würde den Namen der Vorlage entsprechend gestalten, aber na ja...). Ein vergessenes "}}" (da hast Du Recht, die Entfernung des Vorlagen-Endes ist lästig und fehleranfällig) würde im Artikeltext stehen bleiben (nicht in den Einzelnachweisen) und wäre damit zumindest recht auffällig. Ich habe noch über weitere Varianten der Plazierung nachgedacht, aber keine will mir so recht gefallen.
  • Für mich ist selbstverständlich, dass ich für einen Aktualisierungsprozess sorgen muss. Soll heißen: Der Bot handelt auch die Entfernung unnötig gewordener Vorlagen ab.
--Cactus26 (Diskussion) 08:24, 9. Dez. 2014 (CET)
Vielleicht sollte man nochmal überlegen, ob wirklich eine Markierung via Vorlage im Artikel, Wartungskat etc. nötig ist. Das hat zwar einige Vorteile, aber eben auch die von PerfektesChaos angedeuteten Nachteile. In einem ersten Schritt würde auch eine gut abarbeitbare Fehlerliste helfen (klickbarer Link zum Bearbeiten des Artikels, vorausgefüllte ZQ). Ich habe so den Eindruck, wenn man die richtigen Leute auf das Problem aufmerksam macht, sehen die 5000 das Silvesterfeuerwerk nicht mehr. Ab dann stellt sich ja nur noch die Frage, wie viele täglich neu dazukommen.--Mabschaaf 09:06, 9. Dez. 2014 (CET)
Ich habe deshalb die Vorlagenvariante vorgeschlagen, weil ich es für unmöglich halte, dass ein Wartungsteam das abarbeitet. Die Probleme sind teils viel schwieriger als die bei doppelten Vorlagenparametern, weil ich glaube, dass man teilweise die Quellen einsehen muss. Deshalb glaube ich, dass teilweise am ehesten der Hauptautor das Problem beheben kann. Und der sieht die Wartungsliste nicht.--Cactus26 (Diskussion) 09:12, 9. Dez. 2014 (CET)
Klarstellung: „schmeißt einen Alarm“ wäre auch in der Artikel-Darstellung nicht sichtbar, sondern eine Sonder-Wartungskat: „Hoppla, hier hat sich was getan.“
Die ganze Aktion scheint mir hochbrisant; ich habe in den letzten Jahren schon öfters Edit Wars, VM und meterlange BD gesehen, wenn man wildfremden bzw. bestimmten Autoren an den ref rummacht.
Insofern würde ich schon raten, etwas mehr in eine zweite Vorlage zu investieren, um die Angelegenheit transparenter für den beobachtenden Autor zu machen. So wird durch den an zwei oder mehr Stellen gleichzeitig einfügenden Bot auf der Diffpage im Klartext deutlich, an welchem Zusammenhang gleich benannter ref man sich stößt.
Die inhaltliche Auflösung sollte man zunächst einige Tage den „Hauptautoren“ überlassen. Es kann durchaus sein, dass beim Wiederholungsfall eine andere Seitenzahl gemeint war, dies auch im abweichenden EN-Text so drinsteht, und nur der ref-Bezeichner beim C&P irgendwoher nicht angepasst wurde.
Gerade für die Autoren des Artikels solte aber das Einfügen wie auch Entfernen der Vorlage so narrensicher wie möglich gehandhabt werden, ohne Stolperfallen; ref können ewig lang ausfallen.
VG --PerfektesChaos 09:10, 9. Dez. 2014 (CET)
Es gibt schon zwei klar unterscheidbare Fehlertypen: So etwas wie eingangs erwähnt (Sandra Bullock nutzt <ref name="Rotten Tomatoes" gleich 31× für unterschiedliche(!) URLs) und das Beispiel aus Osmose ("ATKINS2006S169") bei dem der Ref-Inhalt auf unterschiedliche, der Ref-Name aber auf gleiche Seitenzahlen hinweist. Ersteres kann jeder auch ohne mindeste Ahnung vom Artikelinhalt auflösen, für zweiteres sollte man im Buch blättern.
Vielleicht ergibt sich daraus aber auch noch ein verfeinerter Ansatz: Eine Zusammenstellung aller gleich benamsten Refs mit unterschiedlichen URLs im Inhalt - dort war entweder ein Weblinkfixer unterwegs oder es ist tatsächlich nur die Unwissenheit um die Funktion des name= gewesen.--Mabschaaf 09:27, 9. Dez. 2014 (CET)

Ich rücke mal raus. @Mabschaaf: Es gibt auch alle möglichen Mischfälle, es fällt mir schwer, mir eine sinnvolle Heuristik vorzustellen, die die Fälle nach Korrektur durch Wartungsteam/Hauptautor trennen könnte. @PerfektesChaos: Ich finde, gerade die nicht korrigierbaren Fälle machen deutlich, dass diese Initiative sinnvoll ist. Widerstand ist eher bei den Fällen zu erwarten, die der Bot korrigiert. Aber die Durchsicht der Fehlerlisten der komplexen Fälle müssten jeden halbwegs rational diskutierenden überzeugen. Mit der zweiten Vorlage kann ich mich nicht anfreunden und auch nicht so recht damit, den wirksamen Wert zu taggen. Es macht einige der Standard-Korrkturfälle erheblich komplizierter (sowohl den, wenn der zweite Fall einen eigenen Namen bekommt, als auch den, wenn der zweite Inhalt schlicht zu entfernen ist). Das Argument mit der einfachen Bearbeitung kann ich aber gut nachvollziehen. Kompromissvorschlag: Wir setzen die parameterlose Vorlage vor alle unwirksamen Ref-Tags (in der Vorlagendoku steht dann, dass die Vorlage immer vor dem fehlerhaften Tag steht). Das ist schön einfach. @alle: Tragt ihr das mit?--Cactus26 (Diskussion) 09:57, 9. Dez. 2014 (CET)

Ist für mich ok. Ich würde da auch keine Shitstorms erwarten, eben weil es "echte" Fehler sind, die behoben werden und keineswegs nur Quelltextkosmetik.--Mabschaaf 10:12, 9. Dez. 2014 (CET)
Anderer Ansatz:
  • Im Artikel wird überhaupt nichts verändert.
  • Auf die Artikel-Disku ein Abschnitt à la GiftBot:
    • Im umseitigen Artikel wurden mehrere ref-tags mit gleichem Bezeichner gefunden: Namenentliche Aufzählung des/der Anfangs-Tag mit konkreten Bezeichnern.
    • Das führt dazu, dass alle Inhalte außer dem ersten unwirksam sind.
    • Möglicherweise sollten sie unterschiedliche Bezeichner erhalten; etwa bei unterschiedlichen Seitenzahlen.
    • Bitte prüfe die Situation und berichtige das; anschließend kannst du diesen Abschnitt sogar entfernen.
  • Der Text kann auch per Vorlage generiert werden, die eine entsprechende Liste von Bezeichnern als Parameter erhält.
  • Das Ganze nach Abarbeitung von Trivialfällen gestartet, wobei die Autoren Wochen und Monate brauchen, um in der Bibliothek nachzugucken, auf welcher Seite welche Aussage stand.
VG --PerfektesChaos 10:13, 9. Dez. 2014 (CET)
Muss zugeben, dass ich im ersten Moment dachte "Grrr...auch das noch..." Aber gut. Es hätte den Charme, dass man die Diagnoseinformation direkt auf der Disk. des jeweiligen Artikels platzieren könnte. Für die Tabelle würde ich aber keine Vorlagen einsetzen, das halte ich für Overkill und macht die Sache auch unflexibel. Aber für das Intro natürlich schon. @PerfektesChaos: Würdest Du mir einen Entwurf einer solchen Vorlage für die Disk.seite erstellen?--Cactus26 (Diskussion) 16:00, 9. Dez. 2014 (CET)

Naja, inzwischen haben sich aus den Weblinks Erfahrungen gesammelt, wie man auch nachträglich nach dem Bot-Edit die Texte umgestalten kann. Ich würde vorschlagen, der Bot schreibt den nachstehenden Block sinngemäß:

== Mehrfache ref-Tags mit gleichem Bezeichner ==
{{Nicht archivieren|Zeigen=nein}}
{{ref-Tag-Fehler
 |Bot=CactusBot
 |Lauf=2015-01
 |Problem=DupName
 |1=rottentomatoes
 |2=fouledeggs
}}
-- ~~~~

Das lässt alle Freiheiten für spätere flexible Umgestaltungen und Auswertungen.

LG --PerfektesChaos 20:29, 9. Dez. 2014 (CET)

@Mabschaaf: Was ist Deine Meinung hierzu?--Cactus26 (Diskussion) 07:23, 10. Dez. 2014 (CET)
Klar, prinzipiell könnte man das auch so machen. Damit gehen wir aber den nächsten Schritt in Richtung Bausteingeschubse auf der Disk. Könnte zu verbrannter Erde führen was den nächsten GiftBot-Lauf betrifft.
Ich habe mir aber jetzt nochmal intensiv die Liste angesehen: Mindestens 9 von 10 Fällen halte ich für abarbeitbar, ohne dazu in irgendeinen der Artikel oder gar in die erwähnte Literatur schauen zu müssen. Für Bots ist das unmöglich, für Menschen dagegen leicht. Die Schwierigkeit ist bestenfalls, übereifrige davon abzuhalten, die 5-10% Fälle zu "fixen" die eben nicht ohne Blick in die Quelle zu entscheiden sind. Es fehlt also eher eine einfach anzustoßende Routine, die solche Fälle dauerhaft von der "normalen" Wartungsliste verbannt und mit dem Stempel "geprüft und als unlösbar befunden" auf eine andere Liste schiebt, aufgrund der die bisher besprochenen Maßnahmen (Diskumeldungen, Vorlage, Wartungskat,...) von einem Bot erledigt werden.
Mein Vorgehen der Wahl wäre also: Erst Liste erstellen und durcharbeiten, dann den Bodensatz auf die Diskus bringen. @PerfektesChaos: undenkbar für Dich?--Mabschaaf 08:27, 10. Dez. 2014 (CET)
Da oben steht |Lauf=2015-01 – soll heißen: Nicht hetzen.
Ich habe jetzt keinen Überblick, welche Dubletten sich ohne Fachkunde auflösen lassen und was für Menschen trivial zu durchschauen wäre. Diese sollten in der Tat direkt und komplett aufgelöst werden.
Alles andere rennt auch nicht weg und wird sich auch schon über fünf Jahre angesammelt haben, ohne dass sich jemand dran gestört hat. Abwarten, bis GiftBot mit den Weblinks in ruhigem Fahrwasser ist, und wenn man sich an den gewöhnt hat, dann parallel oder anschließend Disku schreiben. Wird ja wohl auch dauern, bis einige Hundert manuell editiert wurden.
LG --PerfektesChaos 09:38, 10. Dez. 2014 (CET)
Dann sind wir uns ja einig. @Cactus26: Erstellst Du eine Liste? Ich würde bevorzugen, wenn Du folgendes Format verwenden würdest (mit dem letzten Beispiel aus der bisherigen Liste):

Alkohole • 3× Bruice1 • Artikel bearbeiten


Paula Yurkanis Bruice: ''Organische Chemie'', Pearson Education Inc., 2007, 5. Auflage, S. 829, ISBN 978-3-8273-7190-4.

Paula Yurkanis Bruice: ''Organische Chemie'', Pearson Education Inc., 2007, 5. Auflage, S. 830–831, ISBN 978-3-8273-7190-4

Paula Yurkanis Bruice: ''Organische Chemie'', Pearson Education Inc., 2007, 5. Auflage, S. 412, ISBN 978-3-8273-7190-4.

Das hätte den Vorteil, dass die gesamte Bildschirmbreite für den Inhalt genutzt wird, was den Vergleich einfacher macht.--Mabschaaf 10:46, 10. Dez. 2014 (CET)

Habe die Anregungen aufgegriffen und die Diagnoseseite umgestaltet. Hier ein Testlauf mit 6 Artikeln aus den komplexen Fällen: User:CactusBot/AnalyzeDuplRefName/Diagnose/20141211075445. Ich habe das Taggen der nicht reparieren Stellen erstmal belassen (weil ich daran glaube, dass auch die Hauptautoren der Artikel so tätig werden und ich mir zudem davon weiteres Feedback verspreche), aber nun wie besprochen die Vorlage komplett vor das jeweilige Tag gestellt. Die Dok. habe ich nun hauptsächlich zur Kategorie umgezogen. Ich schlage vor, wenn wir die Ergebnisse des Tastlaufs abgestimmt haben die verbliebenen etwa 2400 Seiten mit einfachen Fällen anzugehen. Diese Seiten beinhalten auch kompliziertere Fäll, die der Bot nicht lösen kann und dann wie oben besprochen im Artikel tagged (Vorlage vor dem Ref-Tag). Das würde er in etwas weniger als 400 Artikeln machen, das scheint mir überschaubar. Eine spätere Umstellung auf Disk.seiten-Diagnose ist damit nicht ausgeschlossen --Cactus26 (Diskussion) 08:08, 11. Dez. 2014 (CET)
Prima. Einzig eine optisch etwas bessere Trennung zwischen den Fällen wäre evtl. wünschenswert, mir fällt aber selbst gerade keine gute Lösung ein. Ist aber auch wirklich nicht soo wichtig.--Mabschaaf 09:47, 12. Dez. 2014 (CET)
@Mabschaaf: Ich finde auch ein bisschen schwer zu erkennen, wenn es mehr als einen Fehler in einem Artikel gibt (meintest Du das?). Habe mal ein br-tag vor den jeweils ersten Eintrag für einen Artikel erzeugt: Benutzer:CactusBot/AnalyzeDuplRefName/Diagnose/20141212103905. Was meinst Du? --Cactus26 (Diskussion) 10:42, 12. Dez. 2014 (CET)
Ja, viel besser. Bisher hast Du alle Fehler in einer einzigen Tabellenkostruktion auf der Seite. Wenn es möglich (und nicht zu viel Aufwand) ist, wäre es vielleicht noch übersichtlicher, wenn Du für jedes Lemma eine eigene Tabelle machst, mit einer Leerzeile zwischen den Tabellen. Aber jetzt sind wir wirklich im Bereich Kosmetik.--Mabschaaf 11:09, 12. Dez. 2014 (CET)
Hätte vielleicht den (optischen) Nachteil, dass die Tab. für jeden Artikel unterschiedlich breit wäre. Ich lasse es jetzt mal so für die einfachen Fälle laufen. In der Hauptsache wird (hoffentlich) da ohnehin nur repariert und nicht in die Liste eingetragen.--Cactus26 (Diskussion) 12:52, 12. Dez. 2014 (CET)

Nun wären alle Artikel mit den einfachen Fällen mal bearbeitet. Schön ist, dass es durchaus ein paar Autoren zu geben scheint, die unsere Dienstleistung hier zu schätzen wissen. Ich sehe gerade die Diagnose-Liste und die Log-Datei des Bot durch. Ein paar weitere Fälle lassen sich noch automatisiert beheben. Ich würde vorschlagen, dass ich vor einer systematischen Korrektur über die Liste begonnen nach Optimierung der Bot-Logik nochmal einen Update der Liste mache.--Cactus26 (Diskussion) 11:48, 13. Dez. 2014 (CET)

Wartungsliste[Bearbeiten]

Habe den Bot nochmal über dieselbe Artikelmenge laufen lassen. Nun konnte er ein paar zusätzliche Artikel bearbeiten, die er vorher überspringen musste, weil Syntax vorkam, die nicht vollständig behandelt worden war (v.a. references Tag mit groups-Attribut und Inhalt). Zudem konnten ein paar zusätzliche Fälle automatisch korrigiert werden. Die aktualisierte Diagnoseseite: Benutzer:CactusBot/AnalyzeDuplRefName/Diagnose/20141213163815 (Unterschied zur vorigen Version). Nun wäre ich dankbar für Feedback, was die Bearbeitung über die Liste anbelangt.--Cactus26 (Diskussion) 17:07, 13. Dez. 2014 (CET)

@Se4598, Cactus26: Nach ersten Gehversuchen mit der Liste habe ich prompt einen Fall gefunden, der nicht gemeldet wurde: In Halogenierung wird das <ref name = "Vollhardt"> insgesamt 4x verwendet, aber mit zwei unterschiedlichen Seitenzahlen. Vielleicht mögt ihr da nochmal nachforschen, ob die Routinen noch verbessert werden können.--Mabschaaf 20:53, 15. Dez. 2014 (CET)
Ja, weil dort Leerzeichen zwischen Gleichheitszeichen und Anführungsstrichen sind, das checkt der verwendete (s.o.) reguläre Ausdruck nicht (WSTM verschönert/fixt das z.B.). Dieser verlässt noch auf ein weiteres Mindestmaß an syntaktischem Aussehen und Fehlerfreiheit, nämlich das Anführungsstriche um den Bezeichner gesetzt werden. Fängt vielleicht daher nicht alles, aber ist ziemlich false positive-frei, nuja solange dann auch danach ein schließendes Anführungszeichen gesetzt wird ;-) Verbesserte RegExp zur Suche werden immer gern angenommmen, hab auch selbst schon ein paar Verbesserungsideen (same identifier delimiter, restricting character set of identifier), aber man muss ja nicht nur den Ref-Tag erkennen, sondern auch sein (effektiv wirksamen) Bezeicher bekommen. Schöne Grüße --se4598 / ? 00:26, 16. Dez. 2014 (CET)
@Mabschaaf: Danke, die Möglichkeit von Whitespaces an der Stelle hatten wir tatsächlich übersehen. Für meinen Bot ist das sogar sehr schädlich, da es dadurch zu falschen Korrekturstrategien kommen könnte. @Se4598: Ich habe mittlerweile die Regex ein wenig erweitert. Hier mal einfach mein Code-Fragment (C#) bei Zusammenbau des Ausdrucks:
String sRegexRef = @"(?i:<ref\s+"
		 + @"name\s*=\s*(""(?<name>[^""<]+)""|'(?<name>[^'<]+)'|(?<unquoted_name>)(?<name>[^'""\s</]+)\s*)"  // Name-Attribut mit doppelten, einfachen und ganz ohne Quotes
		 + @"\s*>(?<content>(?s:.*?))</ref\s*>)";
Ich weiß nicht, in wie weit die Dotnet-Regex-Syntax, die ich verwende, proprietär ist. Vielleicht kannst Du bei Deiner nächsten Analyse eines Dumps Deine Regex auch entsprechend erweitern. Folgendes Anmerkungen:
  • (?s:...) bedeutet singleline, d..h. "." schließt \n ein.
  • ich verwende benannte Gruppen (?<name>...)
  • whitespaces vor/nach = (s.o.)
  • die ref-Tags können auch groß angegeben werden ("(?i:")
  • Attributwert kann mit doppelten, einfachen und ohne Quotes angegeben werden. Besonders letzterer Fall ist sehr speziell, da dann name-Attribute, die Umlaute enthalten, ignoriert werden (siehe diese Disk.). Ich habe dennoch nicht den reg. Ausdruck aus Sanitizer.php:::getAttribsRegex() (z.B. "[a-zA-Z0-9!#$%&()*,\\-.\\/:;<>?@[\\]^_`{|}~]+") verwendet, dies hat folgende Gründe:
    • der reg. Ausdruck aus getAttribsRegex wird mit hoher Sicherheit nicht auf den gesamten Quelltext angesetzt, sondern nur, um die Attribute innerhalb eines zuvor schon vom Parser extrahierten Tags zu analysieren. Diese Vermutung gründet sich darauf, dass lt. obigem Ausdruck ein ">" in einem quotelosen Attributwert möglich sein müsste, aber faktisch nicht ist, denn es wird als Tag-Ende angesehen (habe ich ausprobiert).
    • ich möchte quotelose Name-Attribute mit Umlauten etc. finden, um sie in einer Logdatei zu melden, da man sich an dieser Stelle sicher nicht bewusst war, dass das name-Attrubut schlicht ignoriert wird.
--Cactus26 (Diskussion) 09:46, 16. Dez. 2014 (CET)

Noch eine Kleinigkeit, die leicht zu Fehlern beim Abarbeiten führt: Top of the List ist gerade Düsseldorf, dafür wird 2 × "dross" gemeldet, die unterschiedlichen Seitenzahlen verleiten dazu, einfach nur das name="dross" aus beiden refs zu entfernen. Es gibt aber noch ein weiteres vorkommen von <ref name="dross" /> - das würde dann alleine dastehen und einen Reffehler werfen. Lässt sich schon in der Liste ein Hinweis einbauen, dass zusätzlich zu den gelisteten Inhalten weitere, inhaltsfreie Ref-Name-Tags existieren? (Ich hoffe, das ist verständlich.)--Mabschaaf 11:31, 16. Dez. 2014 (CET)

Verständlich und absolut nachvollziehbar. Muss ich noch implementieren, das schwierigste ist aber wohl, wie man es am verständlichsten in der Diagnoseliste darstellt. Hast Du eine Idee?--Cactus26 (Diskussion) 12:17, 16. Dez. 2014 (CET)
Vielleicht, indem Du die Anzahl der Aufrufe in die einzelnen Zeilen vor den Inhalt setzt und für inhaltslose Aufrufe eine Extrazeile ergänzt? Das wäre im Düsseldorf-Beispiel dann:

Düsseldorf • Artikel bearbeiten
2 × <"dross"> Dross, S. 55.

3 × <"dross"> Dross, S. 99.

1 × <"dross"/>
Das sind übrigens definitiv Fälle, die niemand mehr ohne die Originalliteratur zu prüfen lösen kann.--Mabschaaf 12:27, 16. Dez. 2014 (CET)
Hm. Bisschen viel Platz... Außerdem suggeriert es, dass die Namen wirklich mit Doppelquotes eingerahmt im Ref-Tag stehen, was nicht sein muss. Wie wäre folgende Titelzeile
Düsseldorf • Artikel bearbeiten • name="dross" • 5 Tags mit Inhalten, 1 Tag ohne Inhalt
Was (weiterhin) als explizite fehlt, wäre die Zahl unterschiedlicher Inhalte, aber die sieht man ja, die sind ja darunter dargestellt. Das "1 Tag ohne Inhalt" würde nur dargestellt, wenn es welche gäbe. Das "Artikel bearbeiten" habe ich bewusst vorgezogen, damit es immer an derselben Stelle steht.
Zum "nicht ohne Originalliteratur" lösbar: Eine Variante ginge, wenn man sich mit zusätzlicher Unschärfe arrangiert: "Dross, S. 59 u. S. 99". Ich würde das in diesem Fall sogar befürworten, da ich nicht glaube, dass es sonst jemals korrigiert wird und 2 Seiten eine akzeptable Unschärfe sind.--Cactus26 (Diskussion) 12:53, 16. Dez. 2014 (CET)
--Cactus26 (Diskussion) 12:53, 16. Dez. 2014 (CET)
+1, das ist die bessere Lösung. Deiner Korrekturvariante stehe ich allerdings kritisch gegenüber (mit anderen Worten: würde ich persönlich nicht so machen). Aber warten wir einfach mal ab, wie viele solcher Fälle übrig bleiben.--Mabschaaf 14:20, 16. Dez. 2014 (CET)
Habe den Bot nun mit dieser zusätzlichen Diagnose nochmal über die gleiche Menge laufen lassen, hier die Liste Benutzer:CactusBot/AnalyzeDuplRefName/Diagnose/20141216174342. Es wurden auch ein paar Artikel geändert, das meiste ist auf die zusätzlich möglichen Whitespaces vor/nach dem "=" zurückzuführen: (Edits).--Cactus26 (Diskussion) 18:10, 16. Dez. 2014 (CET)
+1 zu Belegseitenzahlverwurstung.
  • Da würde ich auf keinen Fall von draußen hineinregieren, sondern nur im Quelltext oder auf Disk markieren und erstmal den Artikelautoren die Chance geben, das aufzulösen.
  • Dafür gibt es inzwischen auch schon die Eine-Vorlage-für-alles.
  • Trvialfälle first, Knacknüsse hinterher; dann Autoren vor Wartungsameisen.
OT: Macht einer von euch 2 Admins mal eben WP:A/A?
MediaWiki:preferences-summarykannst du und bestimmte – kollegiale Nacharbeit zu Spezial:Diff/136498661.
LG --PerfektesChaos 23:21, 16. Dez. 2014 (CET)
Ist die neue "Eine-für-alles-Vorlage" für eine (zukünftige) Diagnose auf den Disk.seiten der jeweiligen Artikel gedacht?--Cactus26 (Diskussion) 08:06, 17. Dez. 2014 (CET)
Die Intention ist es, in beiden Situationen eingesetzt zu werden.
  1. Im Artikel
    {{ref-Tag-Fehler|Es folgt ein unwirksamer Inhalt von „ref“, weil dieses name= zuvor bereits definiert wurde.|Bot=CactusBot|Lauf=2014-12-24|Problem=WarnDupName}}<ref name="Coca-Cola-Weihnachtsmann">
    Die Info wird ignoriert; obendrein enthält sie ein Gleichheitszeichen, und alles von „Es folgt“ bis „dieses name“ ist der Name des ersten Parameters.
  2. Auf der Disku-Seite
    #ref-Tag-Fehler-Beispiel
Im Innern der Vorlagenprogrammierung kann dynamisch nachträglich mittels #switch:{{{Problem}}} herumgeschaltet werden, was wann passieren soll.
Die Vorlagenverwendung lässt sich grob tracken oder feindifferenziert nach Datum auswerten; in TemplateTiger oder mit temporären Wartungskats ohne Kategoriebeschreibungsseite.
LG --PerfektesChaos 10:00, 17. Dez. 2014 (CET)
Bei Verwendung innerhalb des Artikels sehe ich nicht, worin der Vorteil gegenüber der bisherigen Vorlage bestehen soll. Ich sehe nur Nachteile. Aber wir brauchen das nicht diskutieren, möglicherweise verzcihten wir ja in Zukunft auf das Taggen der Fehlerstelle im Artikel. Ein bisschen lästig ist das Entfernen der Vorlage schon und man vergisst es sehr leicht. Zudem findet man die Stellen in den allermeisten Fällen ganz gut über den Ref-Namen. Ich bin gespannt auf das Feedback von Mabschaaf, was die Bearbeitung anbelangt. Auch bei Verwendung der Vorlage auf Disk.seiten finde ich etwas merkwürdig, warum das "rottentomatoes" und "fouledeggs" redundant auf jeder Seite stehen soll. Bei einer Vorlage für die Disk. Seiten würde mir nicht so schwer fallen, die Parameterschnittstelle der Vorlage zu entwerfen, aber sehr helfen würde mir die Implementierung der grafische Aufbereitung zur Darstellung auf der Disk.seite, die Texte könnte ich ja dann auch noch anpassen.--Cactus26 (Diskussion) 12:31, 17. Dez. 2014 (CET)
Mir ist nicht ganz klar, welches Feedback Du erwartest. Das Fixen der Fehler ist trotz der Hilfsmittel (Liste + Vorlage im Artikel) mM höchst anspruchsvoll, wenn man versucht, unter allen Umständen fehlerfrei zu bleiben. Ich denke, ich käme auch ohne Vorlage im Artikeltext zurecht, weil die name-Tags ja als Suchtext genutzt werden können. Trotzdem ist die Wartungskat nach der Bearbeitung in der Vorschau als Kontrolle hilfreich, ob man wirklich alle betroffenen Refs gefixt hat. Die Positionierung vor dem Ref-Tag ist im Sinne der Leselogik („nachfolgend kommt ein Fehler“) zwar richtig, hat aber mM Nachteile beim Fixen: Links vom Tag muss die Vorlage entfernt und entweder innerhalb des Tags der Name geändert/entfernt oder rechts vom Tag der Inhalt entfernt werden. Es bleibt also aus der Mitte etwas stehen, an zwei Orten muss korrigiert werden.
Hinsichtlich der Abarbeitung sind PerfektesChaos und ich ja unterschiedlicher Meinung - ich denke, da sollten erst mal ein paar Leute drübergehen, die gerne Fehlerlisten abarbeiten. Hier müssten es halt sehr verantwortungsvolle und ggf. eher zurückhaltende Benutzer sein, denen nicht der Sinn nach schneller Erhöhung des Editcounts steht. Ich würde erst dann die ohne Originalliteratur nicht lösbaren Fälle auf die Diskus schreiben. PC sieht das genau umgekehrt: Direkt alle Fehler auf die Diskus.
Wenn wir bei meiner vorgeschlagenen Variante bleiben, könntest Du den Fixern das Arbeiten noch etwas erleichtern, indem Du zunächst nur die Fälle auf die Liste nimmst, die neben den Tags mit Inhalt keine zusätzlichen Tags ohne Inhalt haben. Die sind für den Anfang leichter abzuarbeiten (entweder Zusammenführen oder Trennen).
Bei den Fällen mit zusätzlichem Vorhandensein inhaltsloser Tags entsteht bei der Entscheidung auf "Trennen" (also die gleichen Names bezeichnen unterschiedliche Quellen) immer ein unlösbares Problem, weil nicht entscheidbar ist, zu welcher der Quellen die inhaltlosen Tags gehören. Das bedeutet in der Folge: Eine Nachfolgeliste mit allen Fällen, die zusätzliche inhaltlose Tags haben, kann nur für die Fälle abgearbeitet werden, die Zusammengeführt werden können. Der Rest bleibt für die Autoren, die Quellenzugriff haben. Die (und nur die) sollten mM auf den Diskus landen. Die Form, die PC dafür oben vorschlägt, orientiert sich stark an der neuen Form der Defekten-Weblink-Meldungen. Das hat programmierseitig den Vorteil, dass der Code dazu schon steht und das Rad nicht neu erfunden werden muss.--Mabschaaf 20:23, 17. Dez. 2014 (CET)
Ach je, es scheint immer etwas schwierig zu sein, die ganzen Vorteile beim Ausreizen der Möglichkeiten von Vorlagenprogrammierung zu erläutern. Sowas hatte ich schon öfters.
  • Zu den "rottentomatoes" und "fouledeggs":
    • Das sind die aktuellen name="rottentomatoes" und name="fouledeggs", die im aktuellen umseitigen Artikel mehrfach vorkommen. Das Beispiel mit "rottentomatoes" fiel weiter oben. Das sind natürlich bei jedem Artikel andere; auf der nächsten Disku ist es halt 1=Duden.
    • Die Angaben Bot= Lauf= sind natürlich bei einem Bot-Lauf konstant; das Problem= vermutlich auch.
  • Weiter oben hatte ich zwei unterschiedliche Blind-Vorlagen zur Kennzeichnung im Artikel angeregt; da hieß es, das wären zuviele und sämtliche Problemstellungen sollten mit einer einzigen Vorlage im Artikelquelltext gekennzeichnet werden.
    • Nun habe ich wunschgemäß alles in einer Unversalvorlage konzentriert; mit einem Info- oder auch blinden Parameter, der für die Autoren den Beschreibungstext liefert.
  • Wiederfinden und wieder Entfernen von Vorlagen sei schwierig?
    • Sie stehen in den Whatlinkshere, und sie lassen sich sogar für individuelle Läufe anhand der Lauf-Kennung wieder herausfischen. Es lassen sich auch für einige Stunden Dummy-Kategorisierungen ohne Kategoriebeschreibungsseite generieren.
  • Ich hatte mich überhaupt nicht zur Abarbeitungsreihenfolge geäußert, bzw. nur dahingehend, dass zunächst mal die trivial durch Bots oder Wartungsameisen aufzulösenden Fälle direkt gefixt werden sollten, ohne irgendwelche Diagnostik in Artikel oder Disku zu schreiben.
    • Danach kommen die Fälle dran, die nur von Autoren mit Zugriff auf die Literatur oder intensives Schmökern in Weblinks aufzudröseln wären.
    • Dafür gibt es zwei Möglichkeiten:
      1. Hinweisvorlage mit hinreichendem und je nach Kontext unterschiedlichem Erläuterungstext in den Artikelquelltext schreiben.
      2. Auf der Disku über eine Vorlageneinbindung wie #ref-Tag-Fehler-Beispiel eine ausführliche Bedienungsanleitung generieren und dabei auch konkret diejenigen Bezeichner aufzählen, die im umseitigen Artikel beanstandet wurden. Der Text kann bei Missverständnissen zentral nachgearbeitet und verfeinert werden.
VG --PerfektesChaos 22:36, 17. Dez. 2014 (CET)

Ich rücke mal wieder raus.

@Mabschaaf: Dein Feedback ist sehr differenziert und damit genau das was ich mir gewünscht habe. Die Zielkonflikte der verschiedenen Varianten (Taggen ja/nein, Pos. Vorlage vor/nach ref-Tag) sehe ich genauso; sie entsprechen auch meinen Erfahrungen beim Bearbeiten der Fälle. Das Taggen mit Vorlage hat auch den Nutzen, dass die Autoren es mitbekommen. Man könnte bestenfalls dann darauf verzichten, wenn man die Hinweise auf die Diskussionsseiten schreibt. Da das Taggen auch für die Autoren gedacht ist, glaube ich nicht, dass man es hinter das Tag stellen kann (zu verwirrend), auch wenn das für den Wartungslisten-Bearbeiter besser wäre. Bei der Beschränkung auf die Fälle, die keine zusätzlichen korrespondierenden Empty-Element-Tags enthalten, darfst Du aber eins nicht übersehen: Es gibt auch da gar nicht so selten lösbare Fälle, nämlich die, bei denen die unterschiedlichen Inhalte durch die verschiedene Darstellungsformen (Formatierung, Verlinkung etc.) derselben Quellenangabe bedingt sind. Ich könnte mir schon vorstellen, dass Autoren mit einer Darstellung der Diagnose auf der Disk.seite besser geholfen würde, das Problem zu verstehen. Aber es ist wie Du sagst, um das beurteilen zu können, bräuchten wir echtes Feedback der Autoren.

@PerfektesChaos:

  • ich weiß nicht, ob man mir die Möglichkeiten der Vorlagenprogrammierung unbedingt erklären muss.
  • ich habe tatsächlich nicht erkannt dass "rottentomatos" und "fouledeggs" Name-Attribute von fehlerhaften ref-Tags sein sollen
  • so schwer wäre es nicht gewesen, den Sinn dieser Parameter zu erklären (siehe eins weiter oben)
  • Konzepte nur an Beispielen zu skizzieren ist sehr zeitgemäß, allerdings recht missverständlich
  • im Gegensatz zu den Weblinks macht es für die Name-Attribute fehlerhafter ref-Tags kaum Sinn, sie in die Vorlage aufzunehmen, da sie außerhalb des Artikels keinerlei Bedeutung haben ("meyer" in Artikel A hat keinen direkten Zusammenhang zu "meyer" in Artikel B)
  • Gerade das Whatlinkshere spricht gegen eine Universalvorlage (von mir stammt der Wunsch nicht). Wenn man dedizierte Vorlagen hat, braucht man keine temporären Dummy-Kategorien (und keine aufgeblasene Vorlagen-Logik)

--Cactus26 (Diskussion) 17:57, 18. Dez. 2014 (CET)


Wie ich weiter oben schon geschrieben hatte: „Das lässt alle Freiheiten für spätere flexible Umgestaltungen und Auswertungen.“ Beispielsweise könnte die daraus resultierende Textdarstellung auf der Disku-Seite wie folgt aussehen:

Im umseitigen Artikel wurden Probleme mit benannten <ref>-Tags festgestellt. Konkret geht es um:

  • <ref name="rottentomatos">
  • <ref name="fouledeggs">

Sie enthalten inhaltlich unterschiedliche Verweise, verwenden dafür jedoch den gleichen Namen.

  • Problem: Nur die jeweils erste Definition wird für sämtliche Verwendungen wirksam.

Vermutlich ist es anders gemeint gewesen; das heißt, an den späteren Verwendungen war auch der abweichende Text beabsichtigt. Dies ist jedoch ohne Kenntnis der Fundstellen nicht mehr nachvollziehbar.

Wenn du Zugriff auf die inhaltlichen Aussagen hast oder gar selbst diese Nachweise eingefügt hattest, dann berichtige dies bitte. Anschließend kann dieser Abschnitt hier auch wieder vollständig gelöscht werden.

Durch die Übergabe der Bezeichner als Parameterwerte ist es möglich, die Tags an einer günstigen und verständlichen Stelle mitten im Text auftreten zu lassen, so man so etwas beabsichtigt; auch erst im nachhinein, wenn der Disku-Abschnitt bereits vom Bot geschrieben wurde.
@ „Universalvorlage (von mir stammt der Wunsch nicht)“ – nun, das las ich oben anders: „Mit der zweiten Vorlage kann ich mich nicht anfreunden“ … „sowohl den, wenn der zweite Fall einen eigenen Namen bekommt,“.
VG --PerfektesChaos 20:27, 18. Dez. 2014 (CET)
Ich glaube, die wichtigste Entscheidung, die aussteht, ist die Frage, ob Markierung mittels Vorlage im Artikel und/oder Diagnoseinformation auf der Disk.seite. Hierzu brauchen wir aber unbedingt weiteres Feedback, habe mal versucht, die Biologen mit ins Boot zu nehmen: Wikipedia_Diskussion:Redaktion_Biologie#Wirkungslose_Einzelnachweise.--Cactus26 (Diskussion) 10:12, 19. Dez. 2014 (CET)

Bildersuche in fremden Wikis[Bearbeiten]

Gibt es eine Möglichkeit die Seiten mit "Bilderwunsch" durchzugehen und zu testen ob es in einer anderen Wikpedia bei dem entsprechen Artikel ein Bild gibt? Die Suche nach "File:" oder "Image:" wäre da der erste Schritt, die unzähligen lokalen Varianten der zweite. Und dann eine Wartungsliste erstellen.

Das ist ein etwas anderer Wunsch als weiter oben. Es müssteneben händisch geeignete Bilder nach Commons verschoben werden, bevor sie bei "uns" eingefügt werden können. --Eingangskontrolle (Diskussion) 20:08, 15. Nov. 2014 (CET)

Finde ich schwierig bis unmöglich, das vernünftig zu machen. Also sicherlich ist es möglich alle Vorlageneinbindungen zu checken, ob in einer anderen Sprache ein Bild eingebunden ist. Aber geprüft werden, ob das Bild das ist, was an der Stelle gewünscht ist, kann ich mir nicht vorstellen, wie ich das programmieren würde.
Nimm als Beispiel Oranienburg. Da wird eine spezielle Ansicht gewünscht .. der englische Artikel enthält zwar Bilder aber sicherlich nicht eines, wie es gewünscht ist.
Also was möchtest du mindestens erfüllt haben, damit du zufrieden bist? --Croesch (Diskussion) 21:54, 15. Nov. 2014 (CET)
So etwas gibt es schon. Schau mal auf Benutzer:Tsor/Tischtennis unter "Bilderwunsch". --tsor (Diskussion) 17:36, 16. Nov. 2014 (CET)

bot als quasi-hook auf den recent changes[Bearbeiten]

gudn tach!
im rahmen einer automatischen link-ersetzung (fuer details siehe WP:SBL#denkmalschutz.de) habe ich ueberlegt, meinen bot das quasi in realtime erledigen zu lassen, weil er per irc sowieso auf den recent changes lauscht. allerdings bin ich davon nach kurzem ueberlegen schon wieder abgerueckt, da ich vermute, dass das nur extrem viel ressourcen fressen wuerde -- bei nur minimalem nutzen. deshalb ergibt sich nun meine frage:
gibt es sowas wie einen zentralen bot, der diverse aufraeumarbeiten auf den recent changes durchfuehrt, in den man diverse kleinere aufgaben reinhaengen koennte -- also quasi sowas wie das edit filter, nur mit einer automatischen post-korrektur statt einem edit-block? -- seth 22:50, 24. Nov. 2014 (CET)

Das Schöne an so einer Lösung wäre, dass man die Benutzer nicht ständig zurechtweist, weil sie etwas falsch machten (und damit im Filter landeten) sondern, dass man nachträglich zeigt, wie man eine nach AGF guten Edit weiter verbessern kann. Ich erledige eine vergleichbare Tätigkeit per Hand bei der Umwandlung von archiv.today-shortlinks in menschenlesbare Langlinks. Den Lernerfolg bei den Benutzern schätze ich als recht gut ein, jedenfalls finden sich im Filter 182 von einer hartnäckigen Troll-IP abgesehen keine Dauergäste.  Frohes Schaffen — Boshomi ☕⌨☺  23:35, 24. Nov. 2014 (CET)
gudn tach!
ja, man koennte auf diese weise einige regeln im edit filter deaktivieren und einfach einen bot diese arbeit erledigen lassen. ein heisser kandidat waere z.b. regel #6, denn ich bezweifle mittlerweile, dass diese regel dazu geeignet ist, user zu "erziehen". auch sowas wie doppelte protokollangaben "http://http://www.example.com" liessen sich darueber korrigieren, ohne dass ein bot auf dem gesamten bestand jedes mal danach suchen muesste.
nachteil waere natuerlich, dass die histories durch die korrekturen dann einen eintrag mehr bekommen koennen. dafuer muessten sich aber weniger leute durch das edit filter gegaengelt fuehlen.
eine naive idee waere, dass ein solcher bot nach einem detektierten zu korrigierenden edit solange wartet, bis ein artikel 15 minuten nicht mehr geaendert wurde, bevor er hand anlegt.
@Der Umherirrende: da hier bisher sonst niemand geantwortet hat, weisst du, ob es sowas bereits gibt? -- seth 19:56, 30. Nov. 2014 (CET)
Soweit ich weiß, gibt es derzeit keinen explizit dafür vorgesehenen Bot, aber schon einige, die die Letzten Änderungen überwachen. Spontan fiele mir da Krdbot ein. Gruß, IW — 20:04, 30. Nov. 2014 (CET)
Eine Erweiterung in MediaWiki für solche Sachen gibt es nicht, da müsste sich die lokale Community etwas ausdenken. Benutzer:CopperBot als Signatur-Bot dürfte auch so etwas ähnliches sein, wenn er auch bis 30 Minuten wartet. Der Umherirrende 20:06, 30. Nov. 2014 (CET)
gudn tach!
dass es keine (implizit agierende) erweiterung dafuer gibt, ist vermutlich auch besser, weil transparenter (weniger magic).
an sich kann ich auch einfach CamelBot erweitern. sollte nicht soo viel arbeit sein, weil er wie gesagt eh schon auf den RCs lauscht und von einigen edits getriggert wird, bisher allerdings nicht durch den inhalt, sondern nur den titel der jeweils entsprechenden artikel.
ich denke bloss, dass das abrufen jedes inhalts jeder aenderung ordentlich ressourcen frisst und deswegen vielleicht besser gebuendelt werden sollte oder nicht?
@Krd, P.Copp: wie sind eure erfahrungen damit? laufen eure bots auch auf dem (neuen) toolserver? ist euer code offen zugaenglich? -- seth 20:44, 30. Nov. 2014 (CET)
Meine Sachen sind nicht offen zugänglich, und laufen größtenteils nicht auf WMF Labs (nur die Teile, die Datenbankzugriff brauchen), weil das Setup dort für den Kleinkram, den ich mache, viel zu kompliziert ist.
Ob die RC-Sachen umsetzbar sind, weiß ich nicht. Ich horche im IRC nur auf Metadaten, ob die Diffs dort auch kommen, weiß ich aus dem Stand nicht. Ich denke, man muss das, wenn überhaupt, in Echtzeit machen, da jede Verzögerung dem menschlichen Benutzer Bearbeitungskonflikte bringt, was bei Neulingen fatal wäre. Allein schon dass ein Benutzer, der seinen Fehler bemerkt, ihn dann aber nicht mehr findet weil er schon korrigiert wurde, dürfte für einige Verwirrung sorgen. --Krd 22:35, 30. Nov. 2014 (CET)
gudn tach!
im irc werden zwar nur die metadaten gepostet, mit denen kann man jedoch sich dann das zugehoerige diff heraussuchen. das wuerde dann schon wesentlich mehr ressourcen beanspruchen. machbar waere es jedenfalls grundsaetzlich.
echtzeit vs. verzoegerung: mit dem genannten argument der verwirrung duerfte man dann auch als normaler user keine korrekturen durchfuehren. deswegen wuerde ich wie gesagt, aehnlich wie beim nachsignier-bot, ein mehrminuetiges delay einbauen, um die edit-conflict-wahrscheinlichkeit runterzuschrauben. und wie gesagt, es geht vor allem um faelle, bei denen man ansonsten aufs edit filter zurueckgreifen wuerde, was zu noch groesserer verwirrung sorgen kann. -- seth 23:05, 30. Nov. 2014 (CET)
Du fragtest nach meiner Erfahrung, und die lautet: Egal wie groß Du die Verzögerung wählst, wirst Du bei dem geplanten Setup mehr als eine Rückfrage/Beschwerde pro Tag bekommen. Das _kann_ akzeptabel sein, aber man sollte vorher klären, wer das dann beantworten wird. Ich kenne schonmal mindestens einen, der keine Lust auf sowas hat.
Ob das Abfragen aller Diffs performt, weiß ich nicht. Evtl. könnte man im ersten Schritt einzelne Benutzergruppen ausblenden, mindestens Admins und Bots. --Krd 23:21, 30. Nov. 2014 (CET)
gudn tach!
ja, du wirst sicher recht damit haben, dass eine solche loesung auch nicht allen gefallen wird. meine hoffnung ist, dass sie insg. fuer weniger reibung sorgt.
und ja, der bot sollte am besten schon im summary auf eine seite hinweisen, auf der man feedback geben kann. im zweifel wuerde ich erstmal meine talk page dafuer hergeben. -- seth 00:16, 2. Dez. 2014 (CET)

Angenommen wir wollten das einfach mal testen, haben wir schon eine Liste von Sachen, die da gemacht werden sollen? --Krd 23:35, 30. Nov. 2014 (CET)

Soweit ich sehe ist die Performance kein echtes Problem. Sobald wir wissen, was genau gemacht werden soll, können wir starten. --Krd 09:45, 1. Dez. 2014 (CET)
gudn tach!
drei beispiele wurden ja in der diskussion bereits von mir genannt (1. link-korrektur denkmalschutz.de, siehe oben verlinkter thread, 2. doppelte protokoll-angaben, 3. regel #6 des edit filters).
eine open-source-loesung ist mir allerdings lieber. wir hatten auf dem alten toolserver ja auch hin und wieder das problem, dass nicht klar war, was mit verwaisten tools passieren soll.
da ich heute morgen eh schon ueberlegt hatte, wie ich das ganze mit CamelBot umsetze, habe ich das soeben mal ausprobiert und es funktioniert. ich werde dann die tage mal die obigen drei punkte dort einbauen und das dann weiter beobachten. danke jedenfalls schon mal fuer die tipps. -- seth 00:16, 2. Dez. 2014 (CET)
gudn tach!
hab jetzt CamelBot so programmiert, dass er die ersten beiden korrekturen durchfuehrt. wenn sich das bewaehrt, kann ich ihm relativ leicht auch andere korrektur-ersetzungen befehlen. performance-maessig kostet das tatsaechlich fast nix. die RCs lasse ich zeitlich ueberlappend (statt streng sequenziell) durchrattern, sodass zudem auch kein zusaetzliches delay mit der zeit reinkommen oder edits uebersehen werden sollten. -- seth 20:58, 3. Dez. 2014 (CET)
Ich hatte der Code dafür auch fast fertig. Falls wir das zwecks Redundanz parallel laufen lassen sollen, melde Dich bitte. (Vielleicht solltest Du es auf einem separaten Benutzer laufen lassen, damit man im Notfall diesen Job besser stoppen kann?) --Krd 15:30, 7. Dez. 2014 (CET)

Vorlage:Infobox Mineral[Bearbeiten]

Nachdem bereits letztes Jahr im Mineral-Portal damit begonnen wurde, die Infobox neu zu gestalten und einige Parameter entsprechend des tatsächlichen Bedarfs anzupassen, wurde diese Diskussion in diesem Jahr noch einmal aufgegriffen und schließlich abgeschlossen.
Der erzielte Konsens ist nach dieser Zusammenfassung folgendes:

Alte Infobox Neue Infobox Erklärungen zu bestimmten Änderungen
  0
  1
  2
  3
  4
  7
  8
  9
 10
 11
 13
 14
 15
 16
 32
 33
 28
 29
 35
 34
 30
 31
-1
 25
 26
 39 !
 45
 46
 47
-1
 48
-1
-1
 50
  5 !
 36
 37
 51
 52
{{Infobox Mineral
|Mineralname             = 
|Bild                    = 
|Bildbeschreibung        = 
|Andere_Namen            = 
|Chemismus               = 
|Mineralklasse           = 
|Kurzform_Strunz_8       = 
|Kurzform_Strunz_9       = 
|Kurzform_Dana           = 
|Kristallsystem          = 
|Kristallklasse          = 
|Raumgruppe              = 
|Raumgruppen-Nr          = 
|Farbe                   = 
|Strichfarbe             = 
|Mohshärte               = 
|Dichte                  = 
|Glanz                   = 
|Transparenz             = 
|Spaltbarkeit            = 
|Bruch                   = 
|Kristallhabitus         = 
|häufige_Kristallflächen = 
|Zwillingsbildung        = 
|Brechungsindex          = 
|Doppelbrechung          = 
|Optischer_Charakter     = 
|Optischer_Achsenwinkel  = 
|Optische_Aktivität      = 
|Pleochroismus           = 
|Phasenübergang          = 
|Schmelzpunkt            = 
|chemisches_Verhalten    = 
|ähnliche_Minerale       = 
|Radioaktivität          = 
|Magnetismus             = 
|besondere_Kennzeichen   = 
}}
 0
 1
 2
 3
 4
 5
 6
 7
 8
 9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
{{Infobox Mineral
| Mineralname             = 
| Bild                    = 
| Bildbeschreibung        = 
| Andere_Namen            = 
| Ähnliche_Minerale       = 
<!-- Allgemeines und Klassifikation -->
| Chemismus               = 
| Mineralklasse           = 
| Kurzform_Strunz_8       = 
| Kurzform_Strunz_9       = 
| Kurzform_Dana           = 
<!-- Kristallographie -->
| Kristallsystem          = 
| Kristallklasse          = 
| Raumgruppe              = 
| Raumgruppen-Nr          = 
| Gitterparameter_a       = 
| Gitterparameter_b       = 
| Gitterparameter_c       = 
| Gitterparameter_alpha   = 
| Gitterparameter_beta    = 
| Gitterparameter_gamma   = 
| Formeleinheiten         = 
| Ref_Gitterparameter     =
| häufige_Kristallflächen = 
| Zwillingsbildung        = 
<!-- Physikalische Eigenschaften -->
| Mohshärte               = 
| Dichte                  = 
| Spaltbarkeit            = 
| Bruch                   = 
| Farbe                   = 
| Strichfarbe             = 
| Transparenz             = 
| Glanz                   = 
| Radioaktivität          = 
| Magnetismus             = 
<!-- Kristalloptik -->
| Brechungsindex_n_alpha  = 
| Brechungsindex_n_beta   = 
| Brechungsindex_n_gamma  = 
| Brechungsindex_n_e      = 
| Brechungsindex_n_o      = 
| Brechungsindex_n_kub    = 
| Doppelbrechung          = 
| Optischer_Charakter     = 
| Optischer_Achsenwinkel  = 
| Pleochroismus           = 
<!-- Weitere Eigenschaften -->
| chemisches_Verhalten    = 
| besondere_Kennzeichen   = 
}}
  • Ähnliche_Minerale = Positionswechsel
  • Gitterparameter_a = Neuparameter: Daten finden sich im Abschnitt Kristallstruktur
  • Gitterparameter_b = Neuparameter: s.o.
  • Gitterparameter_c = Neuparameter: s.o.
  • Gitterparameter_alpha = Neuparameter: s.o.
  • Gitterparameter_beta = Neuparameter: s.o.
  • Gitterparameter_gamma = Neuparameter: s.o.
  • Formeleinheiten = Neuparameter: s.o.
  • Kristallhabitus = Fällt ersatzlos weg
  • häufige_Kristallflächen = Positionswechsel
  • Zwillingsbildung = Positionswechsel
  • Mohshärte = Positionswechsel
  • Dichte = Positionswechsel
  • Spaltbarkeit = Positionswechsel
  • Bruch = Positionswechsel
  • Farbe = Positionswechsel
  • Strichfarbe = Positionswechsel
  • Transparenz = Positionswechsel
  • Glanz = Positionswechsel
  • Radioaktivität = Positionswechsel
  • Magnetismus = Positionswechsel
  • Brechungsindex_n_alpha = Neuparameter, alter Parameter war Brechungsindex. Vorherige Dateneingaben von z.B. nα = 1,594 bis 1,610; nβ = 1,603 bis 1,614; nγ = 1,631 bis 1,642 müssen als reine Zahlenwerte (ohne nα = ) auf die neuen Parameter verteilt werden
  • Brechungsindex_n_beta = Neuparameter, s.o.
  • Brechungsindex_n_gamma = Neuparameter, s.o.
  • Brechungsindex_n_e = Neuparameter, s.o. (Dateneingabe vorher z.B. nε = 1,697 bis 1,709; nω = 1,644 bis 1,658)
  • Brechungsindex_n_o = Neuparameter, s.o.
  • Brechungsindex_n_(kub) = Neuparameter, s.o. (Dateneingabe vorher z.B. n = 1,494 bis 1,509)
  • Doppelbrechung = Positionswechsel
  • Optischer_Charakter = Positionswechsel
  • Optischer_Achsenwinkel = Positionswechsel
  • Pleochroismus = Positionswechsel
  • Optische_Aktivität = Fällt ersatzlos weg
  • Phasenübergang = Fällt ersatzlos weg
  • Schmelzpunkt = Fällt ersatzlos weg
  • chemisches_Verhalten = Positionswechsel
  • besondere_Kennzeichen = Positionswechsel

Da es auch Artikel gibt, bei denen die ersatzlos wegfallenden Parameter gefüllt sind, wäre es schön, eine entsprechende Liste dieser Artikel zu haben, damit man die Werte ggf. im Artikeltext nachtragen kann.
Die nach dem letzten Diskussionsstand angepasste Vorlage der Infobox befindet sich auf meiner Infoboxbaustelle und eine beispielhaft ausgefüllte Kopiervorlage (Infobox) findet sich unter Benutzerin:Ra'ike/Infoboxtest.
Geändert werden sollten natürlich alle Artikel, die die Vorlage:Infobox Mineral verwenden. Vielleicht möchten sich ja Benutzer:Cactus26 oder Benutzer:Filzstift der nicht gerade kleinen Aufgabe annehmen? Schonmal großen Dank im voraus für die Mühe und viele Grüße -- Ra'ike Disk. LKU WPMin 20:26, 25. Nov. 2014 (CET)

Wäre es denn nicht sinnvoll, neu hinzugekommene Parameter per Bot gleich mit Daten zu füllen? --Septembermorgen (Diskussion) 23:13, 25. Nov. 2014 (CET)
Klar wäre es sinnvoll, neu hinzugekommene Parameter per Bot gleich mit Daten zu füllen, falls das geht. Wirklich neu sind allerdings nur die Gitterparameter (a,b,c,α,β,γ) und die finden sich, wie bei den Erklärungen beschrieben, meist im Artikelabschnitt "Kristallstruktur" wie z.B. beim Abelsonit (triklin, alle sechs Gitterparameter gefüllt) und beim Pyrit (kubisch, nur ein Gitterparameter gefüllt). Bei amorphen Mineralen (ohne Kristallstruktur) wie z.B. Evansit und Yukonit fehlt der Abschnitt naturgemäß und auch die Gitterparameter werden entsprechend nicht ausgefüllt.
Bei vielen Mineralen dürften auch die Parameter "Raumgruppe" und "Raumgruppen-Nr." in der Infobox noch nicht ausgefüllt sein, da diese Parameter noch relativ neu sind. Die zugehörigen Daten finden sich ebenfalls im Abschnitt "Kristallstruktur". Um beim Beispiel Abelsonit zu bleiben: Wenn es ein Bot also schafft, aus dem Satzteil "...Raumgruppe P1 mit den Gitterparametern a = 8,508 Å, b = 11,185 Å und c = 7,299 Å; α = 90°51', β = 114°08' und γ = 79°59' sowie einer Formeleinheit..." die Daten zu filtern und die Infoboxparameter wie folgt auszufüllen
| Raumgruppe              = ''P''1
| Raumgruppen-Nr          = 
| Gitterparameter_a       = 8,508
| Gitterparameter_b       = 11,185
| Gitterparameter_c       = 7,299
| Gitterparameter_alpha   = 90°51'
| Gitterparameter_beta    = 114°08'
| Gitterparameter_gamma   = 79°59'
| Formeleinheiten         = 1

wäre ich schon sehr zufrieden. Problematisch könnte es evtl. mit der Raumgruppen-Nr sein, da die nicht immer im Text steht. Allerdings liegen die Raumgruppen-Nr. fest, d.h. beim Abelsonit wäre es z.B. die Nr. 1 (triklin-pedial). Eine Artikelliste nach dem Boteinsatz, die auch aufzeigt, wo Daten in der Infobox ergänzt wurden, wäre allerding schon nötig, damit man das Ergebnis prüfen kann. Gruß -- Ra'ike Disk. LKU WPMin 00:18, 26. Nov. 2014 (CET)

in Arbeit  Wow! Das klingt ja spannend! Die Vorlage selbst müsste ja dann auch geändert werden. Ich werde mich da ran machen, kann aber keinen zeitlichen Rahmen abstecken vorerst. Danke sehr, -- Doc Taxon @ Disc – BIBR – 21:08, 26. Nov. 2014 (CET)

ah, die Vorlage ist ja schon im Infoboxtest, okay! Dann kann ich ja gleich anfangen ^^ -- Doc Taxon @ Disc – BIBR – 21:16, 26. Nov. 2014 (CET)
Ach, und könntet ihr die ganzen Daten irgendwo als Dump speichern? Auf Wikidata gibt es inzwischen fast alle Eigenschaften, die auch die Infobox besitzt. Man könnte langsam daran denken, die Mineraldaten botgestützt in Wikidata eintragen zu lassen.--kopiersperre (Diskussion) 17:57, 30. Nov. 2014 (CET)
@Doc Taxon: Eigentlich befindet sich der zu übernehmende Inhalt für die Infobox-Vorlage auf meiner Infoboxbaustelle. Auf meiner Infoboxtestseite findet sich ja nur die Tabellevorlage für die auszufüllenden Parameter (ist schwer, das begrifflich präzise zu trennen).
@Kopiersperre: Dazu wäre es aber erstmal notwendig, die Daten in den Infoboxen der Mineralartikel auf Richtigkeit, Aktualität und Quellenlage hin zu prüfen. Erst wenn dem so ist, was man evtl. in einer Wartungsliste abhaken könnte, könnte man daran denken, diese zentral in Wikidata einzupflegen.
Viele Grüße -- Ra'ike Disk. LKU WPMin 22:34, 30. Nov. 2014 (CET)
Hallo @Ra'ike: Ja, das hatte ich ja kurz nach meinem Posting auch mitgekriegt. Ich habe schon mit dem Programmieren begonnen, dauert nimmer lang. Liebe Grüße, -- Doc Taxon @ Disc – BIBR – 22:50, 30. Nov. 2014 (CET)

Bot für die Abarbeitung von Kategorie:Benutzer:Importartikel[Bearbeiten]

Normalerweise werden Importartikel nach 3 Monaten Nichtbearbeitung gelöscht. Ich schlage daher, falls jemand daran Interesse hat, folgenden Bot vor (ich kann das leider nicht): Automatische Löschung von Importartikel, die drei Monate unbearbeitet sind und der Benutzer auch inaktiv. Automatische Benachrichtigung auf er Benutzerdisk (entfällt bei gesperrten Benutzern). Automatische Benachrichtigung auf der Benutzerdisk, falls der Importartikel drei Monate nicht bearbeitet wurde, der Benutzer aber aktiv ist. Siehe dazu auch die Diskussion auf meiner Disk unter Benutzer Diskussion:Informationswiedergutmachung#SLAs auf alte Importe. Es erspart Zeit, sinnlose Diskussionen und dürfte automatisierbar sein. MfG --Informationswiedergutmachung (Diskussion) 22:38, 2. Dez. 2014 (CET)

Ich würde diese Angelegenheit federführend den Importeuren überlassen.
Auf Wikipedia:Importwünsche/Wartung wird eine detaillierte Auflistung generiert, wann welcher Artikelentwurf zuletzt bearbeitet wurde und von wem.
VG --PerfektesChaos 23:03, 2. Dez. 2014 (CET)
Diese detaillierte Auflistung wurde zuletzt am 30. Januar 2014 aktualisiert (siehe Verson) und drin steht: Letzter Stand: Sonntag, 1. September 2013 16:20:18. Außerdem stimmt sie hinten und vorne nicht: es sind noch drei Artikel vom Mai 2011 nicht fertig übersetzt, siehe Kategorie:Benutzer:Importartikel 05 - 2011, viele haben gar kein Importdatum in der Tabelle. Ein Bot würde eher dazu führen, dass man diese Projektseite schnelltonnen kann. Ach ja: spaßigerweise steht da noch ein Importartikel von mir drin (angelegt unter meinem alten Benutzernamen: Benutzer:Jack User/Hoot Gibson. Hat sich auch schon längst erledigt. Fazit: ein Bot macht es schneller, besser und entlastet die Importeure vor unnützen Arbeit. Fragen wir mal Itti, was sie als Importeur von der Idee hält. Die Projektseite gibt es übrigens erst seit Januar 2013 und hat sich offensichltich nicht bewährt, immer noch offene Importartikel von 2011 und 2012 sind da gar nicht drin, wenn ich richtig gezählt habe knapp 60 Artikel. --Informationswiedergutmachung (Diskussion) 23:20, 2. Dez. 2014 (CET)
Oh ja, das ganze lässt sich gut per Bot machen, nur müssen eine Menge Fakten beachtet werden. Ebenso auch das Ansprechen von Benutzern z.B. Das ist eine ganz interessante Idee, und ich als Importeur mach mich mit meinem Bot da ran. Das wird aber eine größere Sache. Also schauen wir mal, -- Doc Taxon @ Disc – BIBR – 23:26, 2. Dez. 2014 (CET)
Schön zu sehen, wie sich eine Idee nach dem Wikiprinzip weiterentwickelt und durchsetzt. Vielen Dank posthum an Benutzerin:Lady Whistler, die hier viel Arbeit investierte. Frohes Schaffen — Boshomi ☕⌨☺  00:30, 3. Dez. 2014 (CET)

in Arbeit  -- in Arbeit, -- Doc Taxon @ Disc – BIBR – 23:26, 2. Dez. 2014 (CET)

@Doc Taxon: Danke, der Vorteil ist ja auch, dass die Benutzer mal an ihre Artikel erinnert werden. --Informationswiedergutmachung (Diskussion) 23:45, 2. Dez. 2014 (CET)
@Informationswiedergutmachung:
Oh du mein Herzchen. Na klar, wenn da oben lang und breit erklärt ist, wie die Fachleute den Seiteninhalt aktualisieren, und dort als letztes Datum 2013 vermerkt ist, dann muss halt mal wieder jemand auf den Knopf drücken.
Jetzt mit 812 Einträgen und detaillierter Analyse aktualisiert.
@Doc Taxon: Die Wartungskat darf nicht leer sein; wurde irrtümlich aus der Vorlage herausgenommen – dann natürlich null Treffer.
VG --PerfektesChaos 00:36, 3. Dez. 2014 (CET)
@PerfektesChaos: Ach, PerfektesHerzchen, und was spricht gegen eine Automatisierung des Löschens und auch eine automatische Nachricht? Die gibt es trotz der Fachherzchen nämlich nicht und wäre gar formidabel, wenn nicht gar famos. --Informationswiedergutmachung (Diskussion) 01:36, 3. Dez. 2014 (CET)
Aber supa, das ein Fachmann mal den richtigen Knopf gedrückt hat. Auch wenn es nur ein Jahr gedauert hat. Oder so. --Informationswiedergutmachung (Diskussion) 01:37, 3. Dez. 2014 (CET)
Praktisch wäre auch, wenn man als Knöpfeldrücker automatisch drauf aufmerksam gemacht wird, wenn ein neues Lemma, das identisch mit dem Importnamensartikel ist. Dann könnte man auch umgehend feststellen, dass bsp. Max Maven im Oktober 2014 angelegt wurde, aber im BNR bei einem inaktiven Benutzer Benutzer:Benji Wiebe/Baustelle/Max Maven fröhlich vor sich hinschimmelt. --Informationswiedergutmachung (Diskussion) 01:41, 3. Dez. 2014 (CET)
eine Funktion dazu habe ich vor, in den Bot mit einzubauen. -- Doc Taxon @ Disc – BIBR – 07:30, 4. Dez. 2014 (CET)


@Informationswiedergutmachung:

  • Die fragliche Wartungsseite blieb deshalb auf Stand Sommer 2013, weil die abarbeitende Importeurin im Sommer 2013 verstorben war und ihre Nachfolger sich hier bislang nicht einbrachten.
  • Ein Bot oder Admin, der automatisch Benutzerseiten löschen würde, wäre bald knopflos.
  • Die von dir verlangte Benutzerseitenlöschung wäre dann und nur dann möglich, wenn seit dem Import überhaupt kein oder nur ein Mini-Edit erfolgte. Genau dieser Sachverhalt wird auf der fraglichen Wartungsseite auseinandergefieselt.
  • Vor irgendwelchen Aktivitäten müssen die Benutzer auf ihren Diskus angesprochen werden, und es muss ihnen ausreichend Gelegenheit zur Stellungnahme (rund ein Monat) gegeben werden. Nur diese Ansprache könnte als botgestützte Massenpost erfolgen. Benutzer müssen auch nicht pausenlos aktiv sein.
  • Kam es erstmal durch den Wirt oder gelegentlich andere Benutzer zu nennenswerten Bearbeitungen, wurde gar der Artikel schon zur Hälfte übersetzt, dann ist überhaupt keine Löschung von Amts wegen mehr möglich.
  • Schwierig ist der Fall, wenn zum gleichen Thema und ggf. von jemand anderem übersetzt schon ein Artikel im ANR steht; dann muss für alle erarbeiteten Passagen überprüft werden, ob sie inhaltsreicher sind als die ANR-Version.
  • Die grundsätzliche Politik mit Benutzerseiten ist, dass diejenigen, die dem Ziel der Enzyklopädieerstellung dienen, auch im BNR verweilen dürfen; sie fressen keinerlei zusätzliche Ressourcen mehr als ohnehin schon angefallen.
  • Der Umgang mit den fraglichen Benutzerseiten bedarf der Einzelfallprüfung und eines vorsichtigen Umgangs mit den Autoren. Eine automatisierte Kahlschlagsanierung, wie sie dir vorschwebt, wird es nicht geben.

@Doc Taxon: CC

VG --PerfektesChaos 12:35, 5. Dez. 2014 (CET)

Ja ja, das seh ich schon auch alles so. Ein Konzept dazu erarbeite ich gerade. -- Doc Taxon @ Disc – BIBR – 13:44, 5. Dez. 2014 (CET)

Übertrag recherchierter Archiv-URLs[Bearbeiten]

Siehe: Wikipedia:WikiProjekt_Weblinkwartung/Botliste

Die Liste enthält tote Links in Artikeln, die in anderen Artikeln durch einen Archivlink gefixt wurden. Die Abfragekritereien waren:

  1. Die zu fixenden URL ist nicht mehr erreichbar (Status_code > 400 oder auf einer Domainreseller Seite)
  2. Im Artikel konnte keine Archive-Memento gefunden werden, mit der der Link gefixt wurde
  3. Das Memento der als möglicher Kanditat zum Fixen eingesetzt wird, muss erreichbar sein (Status_code 200)

Diese Liste enthält 4495 Artikel-URL-Paare die es zu Fixen gilt. Es wurden Mementos aus archive.org, webcitation.org und archive.today angegeben.


Idealerweise sollte aber gleich die Vorlage {{Webarchiv}}, bzw. unsere Zitationsvorlagen mit den Parametern achiveurl/archiv-url archivedate/archiv-datum verwendet werden. Ist dies möglich, dann sollte bei den archive.org-Links die Authority https://web.archive.org/web/ verwendent werden. Falls das Einpflegen der Archive-URLs in Vorlagen nicht mögliche ist, habe ich http://wayback.archive.org/web/ angegeben, da diese Autortity defakto leer ist, und leicht per Hand über die Weblinksuche auffindbar ist. In diesem Fall müsste ich die URLs nochmals per Hand durchgehen. Dank WP:WLC geht das zwar recht zügig, bei 4000 Links ist das dennoch eine Menge Handarbeit.

Ich bitte auch um das Anlegen einer Liste, wo ein Ersatz aus irgendwelchen Gründen technisch nicht möglich ist.

  • Anmerkung 1: Ich habe nochmals rund 6000 URL in meiner Datenbank, aber bei diesen liefert die Originalseite in der Regel einen 200er Code, und diese müssen nochmals per Hand auf Unerreichbarkeit geprüft werden. Der Größte Teil davon scheint tatsächlich noch erreichbar zu sein, aber es bedeutet auch, dass weiter Listen nach dem Muster erstellt werden können (wenn auch nicht mehr so lange)
  • Anmerkung 2: Die Liste wurde auf Basis des Dumps vom 30. November 2014 erstellt, kann also im Einzelfall veraltet sein.
  • Anmerkung 3: Nach ersten Versuchen scheinen derzeit möglicherwiese an die 600.000 externe Links defekt zu sein. Die hier angeführte Methode könnte also zu einer Dauereinrichtung werden, die die Wartungsarbeiten deutlich entlasten könnte.

 Frohes Schaffen — Boshomi ☕⌨☺  16:55, 3. Dez. 2014 (CET)

Unverlinkte DOI verlinken[Bearbeiten]

Hat jemand die Möglichkeit diese unverlinkten DOI (halb)automatisch zu verlinken? --Leyo 02:05, 15. Dez. 2014 (CET)

Schwierigkeiten: Manchmal werden DOIs als Linktextbeschriftungen genutzt, häufiger folgen Satzzeichen, die in der Regel nicht dazu gehören.--Mabschaaf 09:08, 15. Dez. 2014 (CET)
Ja, es gibt Fälle, wo ein (halb)automatischer Ansatz nicht möglich ist. --Leyo 14:39, 15. Dez. 2014 (CET)
Wenn man diejenigen Fälle, wo der DOI direkt vor einem schliessenden Ref-Tag (ggf. mit Punkt dazwischen) automatisiert abarbeiten könnte, gäbe der Rest nicht mehr sooo viel zu tun. Meine RegExp-Kenntnisse sind zu schlecht, um die Suche entsprechend einzugrenzen. Bei insource:/[^(\[|\")][Dd][Oo][Ii]\:10\.[0-9]???\<\/ref\>/ müssten die Fragezeichen durch den passenden Code ersetzt werden. Vielleicht kann dies ja PerfektesChaos, der sich ja nun bestens mit der DOI-Syntax auskennt. --Leyo 23:05, 15. Dez. 2014 (CET)
Das ist weniger eine Frage, was mir an RegExp einfällt, als vielmehr was Cirrus zu verstehen geruht.
Bei bestimmten Sonderzeichen weiß ich auch nicht so genau, was Cirrus da so anstellt.
Der nachstehende Ausdruck findet erstmal 359 Seiten mit harmlosen DOI, bei denen dann auch gleich eckige Klammern drumherum gesetzt werden können; der Vorlage bedarf es nicht, weil die auch keine schärfere Syntaxprüfung mehr machen würde:
insource:/[^(\[|\")]doi\: *10\.[0-9]+\/[a-z0-9.-\/:()]+[^.]\<\/ref\>/i
Auf den Trefferseiten können natürlich auch weitere DOI mit anderen Bedingungen auftreten.
Bislang ist noch kein Fall bekanntgewoden, wo ein Punkt am Ende des DOI gestanden hätte; das waren dann immer Satzzeichen beim Publisher oder gemäß WP:Lit hinzugefügte; mit Punkt dagegen kaputt.
Viel Spaß --PerfektesChaos 00:07, 16. Dez. 2014 (CET)
Vielen Dank für die RegExp-Erweiterung! Ja, von mir aus könnten jeweils auch einfach eckige Klammern drum gesetzt werden. Die schliessenden ]] direkt vor dem Ref-Tag oder – falls vorhanden – vor dem Punkt davor. Eine DOI, die mit einem Punkt endet, habe ich jedenfalls noch nie gesehen.
Sobald dies gemacht ist, könnte man sich die verbleibenden Fälle ansehen. --Leyo 22:59, 16. Dez. 2014 (CET)

Bot:Einzelnachweise[Bearbeiten]

Könnte einer vielleicht einen Bot programmieren, der, sofern er einen Artikel mit ref-Tags entdeckt, aber ohne <references/>, dies vor den Personendaten automatisch einfügt? Kommt mittlerweile sehr häufig vor, manchmal ganz ohne den Absatz == Einzelnachweise == und manchmal wird es einfach nach dem Absatz vergessen. MfG --Informationswiedergutmachung (Diskussion) 22:20, 18. Dez. 2014 (CET)

Hast du Kategorie:Wikipedia:Seite mit fehlendem References-Tag schon gelesen? --Leyo 18:26, 19. Dez. 2014 (CET)
Der Begriff Einzelnachweise als Abschnittsüberschrift ist auch keinesfalls unumstritten, da TF. --Pölkky 18:40, 19. Dez. 2014 (CET)
Möglich, aber woanders zu diskutieren. --Leyo 18:42, 19. Dez. 2014 (CET)
Das ist richtig, es wird hier diskutiert: Hilfe_Diskussion:Einzelnachweise#Einzelnachweise_.3D_TF_.3F - aber bevor ein Bot losläuft, sollte man vielleicht die dortige Disk. abwarten. --Pölkky 21:55, 19. Dez. 2014 (CET)
Der Setzer dieses Bausteins ist der Ansicht, diese Bot-Anfrage sei abgeschlossen und könne archiviert werden. Leyo 20:35, 27. Dez. 2014 (CET) Erledigte Anfrage

Gesucht: Artikel ohne Überschriften[Bearbeiten]

Ich hätte gerne eine Liste aller Artikel in der Kategorie:Schach, die keine Überschrift zweiter Ordnung (also die normale Überschrift) haben. Artikel mit Überschriften der Ordnungen 1 und >2 können gerne mit aufgeführt werden. 85.212.17.126 18:01, 19. Dez. 2014 (CET)

Gemäss incategory:Schach -insource:/\=\=/ gibt es keine. Falls du den Katbaum gemeint haben solltest, so wirst mit Schach* -insource:/\=\=/ fündig. --Leyo 18:21, 19. Dez. 2014 (CET)
Nein, das funktioniert nicht. Schach* -insource:/\=\=/ findet auch Artikel außerhalb der Kategorie:Schach, incategory:Schach* -insource:/\=\=/ findet gar nichts. 85.212.38.115 19:00, 19. Dez. 2014 (CET)
Das ist mir bewusst. Ein paar zusätzliche Artikel schaden dann doch nicht so sehr. --Leyo 19:06, 19. Dez. 2014 (CET)
Es sind nicht nur ein "paar zusätzliche Artikel", aber ok, das tut den Dienst. 85.212.38.115 19:09, 19. Dez. 2014 (CET)
insource:/\[\[Kategorie\:Schach/ -insource:/\=\=/ wäre sonst noch eine Alternative. --Leyo 19:15, 19. Dez. 2014 (CET)
Aber keine gute, denn das findet z. B. Kategorie:Person (Schach) nicht. 85.212.38.115 19:22, 19. Dez. 2014 (CET)
Ich hätte jetzt eigentlich erwartet, dass insource:/\[\[Kategorie\:[^\]]*Schach/ -insource:/\=\=/ entsprechend funktioniert, aber irgendwo habe ich da einen Denkfehler (oder die regexp-Suche einen Fehler). Auf jeden Fall sollte insource:/\[\[Kategorie\:.*Schach/ -insource:/\=\=/ alle liefern, wenn auch unsauber. Dabei gibt es aber auch false positives. \b funktioniert anscheinend in den regulären Ausdrücken bei der Suche auch nicht. Scheint doch recht eingeschränkt. --APPER\☺☹ 01:11, 26. Dez. 2014 (CET)

Gebietsreform in portugiesischen Gemeinden[Bearbeiten]

Hallo zusammen,

im September 2013 sind durch eine Gebietsreform rund 2000 Gemeinden (Freguesias) in Portugal verschwunden. Da die meisten Artikel zu diesen Gemeinden immer nach dem gleichen Schema erstellt wurden und aus nicht mehr als dem Einleitungssatz + Infobox bestehen, könnte man die Artikeländerung zu den Gemeindezusammenschlüssen in den meisten Fällen per Bot eintragen: - hierzu müsste der Text angepasst werden (hierzu erstelle ich gerade eine Liste mit den zu ergänzenden Textstellen) - die Navigationsleiste entfernt werden - Kategorien in den Artikelquelltext eingetragen werden - Infoboxparameter entfernt werden - die Einwohnerzahlen direkt in den Artikelquelltext eingetragen werden.

Die Änderung sähe dann so aus: [10]. Die Liste den zu ändernden Artikel erstelle ich noch. Viele Grüße --Septembermorgen (Diskussion) 12:34, 21. Dez. 2014 (CET)

Liste der Mitglieder der American Academy of Arts and Sciences[Bearbeiten]

Die American Academy of Arts and Sciences wählt jedes Jahr ein paar Dutzend neue Mitglieder. Es gibt auch eine Kategorie:Mitglied der American Academy of Arts and Sciences. Wäre es möglich, anhand der PDF-Dateien unter 1, 2, 3, 4, 5 und 6, in denen die Mitglieder für jedes Wahljahr nach dem Schema Elected in YYYY und dann eine Liste von xx Namen nach dem Schema Nachname, Vorname(n) (Geburtsjahr-ggf. Sterbejahr) aufgelistet sind, in Einzellisten abzuspeichern? Wunschlemma wäre Liste der Mitglieder der American Academy of Arts and Sciences (YYYY). In diesen Listen sollte folgendes stehen:

Im Jahr YYYY wählte die American Academy of Arts and Sciences xx Personen zu ihren Mitgliedern.
__INHALTSVERZEICHNIS__
Neugewählte Mitglieder
Weblinks
[[Kategorie:Liste (Mitglied der American Academy of Arts and Sciences)]]

Um eine allfällige Anpassung von Lemmata an hier übliche Namenskonventionen, Auflösung von BKLs und etwaige Nachträge in den jeweiligen Artikeln würde ich mich nach und nach kümmern.

Unter https://www.amacad.org/contentu.aspx?d=941 stehen neben den Jahreslisten auch Mitgliederlisten, die nach dem Anfangsbuchstaben sortiert sind. Entsprechende Listen würde ich vermeiden wollen, weil sie z.T sehr groß würden und jedes Jahr anlässlich der Neuwahl gepflegt werden müssten, während ich nach o.g. Modell nur einfach eine neue Liste anlegen müsste.

Viele Grüße, --Drahreg01 (Diskussion) 23:12, 25. Dez. 2014 (CET)

Nur eine Nebenbemerkung, da der Botauftrag nichts für mich ist, ich aber ein Script habe, was fehlende Auszeichnungskats findet, welches ich mal eben kurz auf diese Kat angesetzt habe:
Es gibt 1045 existierende dewiki-Personenartikel, die nicht in Kategorie:Mitglied der American Academy of Arts and Sciences enthalten sind, jedoch in mind. einer fremdsprachigen Wikipedia (vor allem enwiki und das persische fawiki) in dieser Kategorie einsortiert wurden. Wenn du interessiert bist, kann ich dir die Liste geben. Merlissimo 00:57, 26. Dez. 2014 (CET)
Jein, ich wollte die Sache mehr an der Wurzel (also den Mitgliederlisten) packen. Auch en: und fa: werden bezüglich der Kategorisierung nicht vollständig sein. Und es mag (einzelne) Artikel auf de: geben, die nicht auf anderssprachigen Wikis existieren. Trotzdem danke für das Angebot, ich schicke dir mal ne Mail. --Drahreg01 (Diskussion) 09:00, 26. Dez. 2014 (CET)
@Merlissimo: Meine Wikimail an dich ist gebounced. --Drahreg01 (Diskussion) 09:44, 26. Dez. 2014 (CET)
Ups, sorry und danke für den Hinweis. Ich hatte auf dem alten Toolserver mir ein Archiv für Mails angelegt. Jetzt sollte ich wieder erreichbar sein.
Von vollständig habe ich nicht gesprochen. Es heißt nur dass die Kat statt der jetzigen 849 Einträge eigentlich mind. 1894 enthalten könnte, wenn die Kategorisierung auf dewiki konsequenter erfolgt wäre. Merlissimo 11:46, 26. Dez. 2014 (CET)
2. Mail ist raus. --Drahreg01 (Diskussion) 12:06, 26. Dez. 2014 (CET)

Refs in Überschriften[Bearbeiten]

Ich hätte gerne eine Liste von Artikeln, bei deinen ein Einzelnachweis in einer Überschrift angegeben ist. Sowas ist unschön und sollte im Allgemeinen anders gelöst werden. 79.217.186.95 00:27, 27. Dez. 2014 (CET)

Benutzer:Krdbot/Refs in Überschriften. --Krd 11:57, 28. Dez. 2014 (CET)
Danke. 85.212.17.126 15:34, 28. Dez. 2014 (CET)

Verlinkte Überschriften[Bearbeiten]

Ich hätte gerne eine Liste mit Artikeln, in denen ein Wikilink in einer Überschrift enthalten ist. Sowas ist unschön und sollte entfernt werden (vgl. Wikipedia:Typografie#Grundregeln). 79.217.186.95 00:30, 27. Dez. 2014 (CET)

Eine Liste der Artikel, bei denen eine Überschrift mit einem Wikilink anfängt liefert die neue Suche mittels insource:/\=\= ?\[/. Nicht dabei sind Artikel, bei denen der Wikilink weiter hinten in der Überschrift kommt. Aber schonmal ein Anfang. --APPER\☺☹ 02:21, 27. Dez. 2014 (CET)
Könnte da in systematisierbaren Fällen ein Bot ran? Ein Anfang wäre z. B. in allen Jahresartikeln die Überschrift "Gestorben XXXX" zu entlinken und direkt unter die Überschrift den Link per Vorlage:Hauptartikel anzubringen (zur Zeit geht der Link meistens auf die entsprechende Kategorie:Gestorben XXXX, aber da es seit kurzem Nekrologe zu sehr vielen Jahresartikeln gibt, könnte man stattdessen die verlinken). 79.217.172.9 17:04, 27. Dez. 2014 (CET)

Artikel auslesen[Bearbeiten]

Hallo Kollegen, hat einer von euch einen Bot der mir folgende Aufgabe abnehmen könnte:

In der Kategorie:Skispringer bzw. deren Unterkategorien sollen alle Artikel mit der Vorlage:Infobox Skispringer wie folgt automatisch geprüft werden:

1. enthält die Vorlage eine ausgefüllte Variable "weltcupsiege" und der Artikel einen Abschnitt "Weltcupsiege im Einzel" (genau diese Formulierung) ... Wenn nicht bitte auflisten unter Benutzer:Wikijunkie/Skispringerwartung/Einzel

2. enthält die Vorlage eine ausgefüllte Variable "wcsiegeteam" und der Artikel einen Abschnitt "Weltcupsiege im Team" (genau diese Formulierung) ... Wenn nicht bitte auflisten unter Benutzer:Wikijunkie/Skispringerwartung/Team

Welcher Bot könnte die über 1300 Artikel einmal automatisch prüfen und mir die Wartungslisten erstellen? Ich wäre euch sehr dankbar. Liebe Grüße --Wikijunkie Disk. (+/-) 01:26, 28. Dez. 2014 (CET)

Mittels insource:/Infobox Skispringer/ insource:/weltcupsiege *= *(\{\{0|[1-9])/ -insource:/Weltcupsiege im Einzel/ oder ähnlich hast du's schon versucht? Falls du das Gewünschte so hinkriegst, hast du dynamische Wartungslisten. --Leyo 01:51, 28. Dez. 2014 (CET)
Hallo Leyo... Wie dynamisch ist das... Das heißt auf welchem Stand sind die Suchergebnisse jeweils. --Wikijunkie Disk. (+/-) 01:59, 28. Dez. 2014 (CET)
Sekunden bis Minuten. Das sollte sogar für dein Arbeitstempo schnell genug sein. ;-) --Leyo 02:03, 28. Dez. 2014 (CET)
  • Info: Auch Hilfe:Suche/Cirrus #hastemplate beachten.
  • Damit ergibt sich folgender robuster Weg:
    1. Wenn für die Vorlage der Parameter XYZ angegeben ist, dann löse innerhalb der Vorlage eine geeignete Wartungskat ...enthältXYZ aus.
    2. Anschließend wie von Leyo richtig angegeben mit
        incategory:...enthältXYE -insource:/== ?Weltcupsiege im Einzel ?==/
        incategory:...enthältXYT -insource:/== ?Weltcupsiege im Team ?==/
minutengenau aktualisiert darstellen; die URL der Suche in der Kategoriebeschreibung der jeweiligen Wartungskat verlinken.
  • OT: Würde grad mal jemand WP:A/A spielen und Modul:PageUtil auf edit=autoconfirmed:move=sysop setzen?

Schönen Sonntag --PerfektesChaos 11:36, 28. Dez. 2014 (CET)

OT-Wunsch erledigt.--Mabschaaf 12:40, 28. Dez. 2014 (CET)
Also die Lösung von PerfektesChaos ist mir dann doch sehr kompliziert... Ich versuch mit Leyos Lösung klar zu kommen. --Wikijunkie Disk. (+/-) 14:20, 28. Dez. 2014 (CET)