Benutzer Diskussion:Wurgl/Biografie Statistik

aus Wikipedia, der freien Enzyklopädie
Letzter Kommentar: vor 3 Jahren von Sprachraum in Abschnitt Filmeditorinnen fehlen
Zur Navigation springen Zur Suche springen

@Chiananda: Ich hab mal ausgewertet. Hab aber den Ansatz mit den Biografie-Listen vom APPERbot verworfen, weil ich so manche Verschieberei bzw. Löschung/Neuanlage einfach nicht nachvollziehen kann, auch nicht als Mensch.

Berücksichtigt sind alle Artikel die heute und jetzt die Vorlage Personendaten enthalten (Weiterleitungen mit der Vorlage Personendaten sind nicht berücksichtigt). Bei denen guck ich zum Jahresanfang des Auswertejahrs, ob dort auch Personendaten sind und wenn ja, werden die Kategorien dieses Zeitraums ausgewertet.

Artikel die heute keine Vorlage Personendaten haben, die aber irgendwann mal diese hatten werden nicht gezählt, Artikel die mal existierten und heute gelöscht sind, werden auch nicht gezählt.

Der Abschnitt 1800er-Jahre hat total falsche Zahlen, bitte ignorieren. Fehler ist schon gefixt.

Personen die in der z.B. Kategorie:Geboren im 1. oder 2. Jahrhundert sind, werden wohl doppelt gezählt. Ursache: Diese Kategorie ist sowohl in Kategorie:Geboren (1. Jahrhundert), als auch in Kategorie:Geboren (2. Jahrhundert) enthalten. Nur wie soll ich solche zählen?

Sonst muss ich nochmals den Kategoriebaum prüfen ob nicht andere Teilbäume solche Doppelzählungen verursachen.

Zur Vorderseite: Ich hab mal alles in die Tabellen gepackt. Ja, es ist unübersichtlich. Und ja, die Seite ich mit 1 MB verflixt groß. Ich kann da Farben dazumachen, nur dann bin ich sicher über der max. Größe von 2 MB. Die Rohdaten der Tabellen hab ich in computerlesbarem Format rumliegen, das kann ich recht flott anders generieren ohne nochmals auszuwerten. Aber es soll ja übersichtlich werden. Da braucht es Ideen und Geisesblitze. Und zum Schluss noch: @Graphikus: dich mag das eventuell auch interessieren, ganz am Ende ist die Gesamtanzahl, da siehste wie klein der Bereich mal war. --Wurgl (Diskussion) 11:05, 7. Nov. 2019 (CET)Beantworten

Wikipedia-BiografienSportler und Sportlerinnen
23,59 % der momentan 940.724 Biografien (17,85 % Frauen)
Jahr Alle 👨 👩 %
Akt. Woche 221.943 live live 10 Jahre: +5,2 %
31.12.2019 160.572 129.668 29.288 18,425 %
30.06.2019 154.718 125.104 28.038 18,308 %
31.12.2018 149.568 121.414 26.612 17,977 %
31.12.2017 141.340 114.975 24.880 17,789 %
31.12.2016 133.714 109.003 23.291 17,605 %
31.12.2015 124.882 102.021 21.505 17,409 %
31.12.2014 113.996 93.158 19.561 17,353 %
31.12.2013 104.808 85.828 17.797 17,174 %
31.12.2012 95.941 78.884 15.961 16,828 %
31.12.2011 84.086 69.847 13.228 15,922 %
31.12.2010 72.563 60.911 10.764 15,017 %
31.12.2009 58.785 50.127 7.903 13,618 %
30.06.2009 52.389 44.831 6.848 13,250 %
Boah… *lufthol* ooooooh… *urschrei* Das lässt ja die Götter erblassen ;)
Deine Basis, nur den aktuellen Bestand auszuwerten, finde ich gut. Auch ich bin mittlerweile zu dem Ergebnis gekommen, dass es exakter ist zu schauen, welche der heutigen Bios zu welchem früheren Zeitpunkt erstellt wurden, statt (Roh-)Bestände oder Zahlen früherer Jahre heranzuziehen: rechts ein Beispiel mit bereinigten Zahlen, also vom aktuellen Bestand zurückschauend; dabei wurden allerdings nicht die Personendaten, sondern nur die Kategoriezugehörigkeiten (händisch) ausgelesen. Deine Sportler-Tabelle habe ich schonmal sortierbar eingebaut auf „Portal:Frauen/Biografien/Statistik nach Sportart #Sportler nach Sportart“.
Zur Bewältigung der Zahlenmasse würde ich als erstes vorschlagen, die Staatsangehörigkeiten auszulagern, die nehmen zumindest 50 % des Platzes in Anspruch. Zu ihnen gibt es auch eine Live-Tabelle sowie die Live-Tabelle "Artikelanzahl nach Staat" – vielleicht ließen sich die 3 in einer eigenen Sektion zusammenfassen…?
Die Auswertung der Kategorie:Divers (erstellt erst im Mai 2019) hilft nicht wirklich, wird vermutlich auch bald gelöscht. Bisher war die Kategorie:Intergeschlechtliche Person Bestandteil der 4 grundlegenden Geschlechtskats "m/w/i/u" und wurde auch bei einigen früheren Auswertungen berücksichtigt (kaum jemals mehr als 20 Einträge). Verwunderlich finde ich die Zahl von 50 Diversen in 2019 (rechts am Seitenende). Aber das lässt sich ignorieren…
Und kurze Frage: Hattest du meine überarbeitete Kategoriensammlung auf "Portal:Frauen/Biografien/Statistiken 2013" berücksichtigt?
Ich werde die Tabelle genauer studieren und dann konkreteres Feedback geben – nur soviel als Erstes: boah… wow! ;-)  Grüße --Chiananda (Diskussion) 17:01, 7. Nov. 2019 (CET)Beantworten
Zur Kategorie Divers: Ich unterscheide Männchen, Weibchen, Unbekannt und alles andere ist Divers (also Divers, Intersexuell und Transgender).
Übrigens wird die Tabelle in dieser Form auch zu breit. Mein Bildschirm ist ja riesig (40" und UHD-Auflösung), aber was machen Leser mit Laptops oder einfach nur normalen Bildschirmen. --Wurgl (Diskussion) 17:21, 7. Nov. 2019 (CET)Beantworten
Eigentlich gehören alle eindeutigen Nicht-m/w-Personen in die neue Kategorie:Nichtbinäre Person (als Untergruppe von Transgender), weil alle anderen Transgender-Personen auch bei "m/w" einsortiert sind. Intergeschlechtliche sind größtenteils auch bei "m/w" einsortiert, bisher nur 3 nicht (Problem wird derzeit bearbeitet). Also würde ich die 4 G.kats "m/w/i/u" als Grundlage nehmen: Die 17 i-Personen sind "gleichwertig" zu den bisher gar nicht erfassten 19 Nichtbinären.
Und ja: Ich sehe jetzt erst, dass alle Tabellen rechts bis "2019" gehen ;-)  Eine erste Hilfe könnte die Einstellung der Tabellen auf "font-size:95%" sein, eine zweite die Auswertung erst ab 2009.
Außerdem möchte ich vorschlagen, das aktuelle Jahr immer links anzuzeigen, und dann nach rechts in der Zeit zurück zu gehen: Wenn ich aktuelle Zahlen vergleichen will, fehlt mir beim Rechtsscrollen der Zusammenhang zum Katnamen. Außerdem interessiert sich nicht jeder für 2005 und muss dann erst rechts irgendwo aktuellere Jahre suchen… Gruß --Chiananda (Diskussion) 18:34, 7. Nov. 2019 (CET)Beantworten
Sag ganz einfach: Wo willst du Gloria Gray haben? Wo Gabriel J. Martín? Der Fall hier ist klar: Alex Jürgen => Diverse.
Die Jahre hab ich jetzt umgekehrt angezeigt, 2019 am Anfang. --Wurgl (Diskussion) 19:02, 7. Nov. 2019 (CET)Beantworten
Wo siehst du Probleme bei Frau Gloria Gray? Ich habe dir rechts noch die Quasi-Live-Tabelle eingeblendet: Es gibt insg. nur 19 Personen, die nicht "m, w, u" sind, nur 3 davon sind intergeschlechtlich. Aber wie gesagt: Dieser Aspekt braucht uns nicht unbedingt zu interessieren – bei meinen Statistiken lese ich jedesmal auch den Nicht-m/w-Teil aus, und kann ihn dann getrost vernachlässigen und einfach nur noch Frauen zu Männern in Beziehung setzen. Bei den 158.700 Sportlern gibt es 5 "i" und 1 "u" und 0 "nb".
Upps, jetzt verstehe ich, was du meinst: du hast die unter dem Label "Divers" subsumiert, habe ich falsch verstanden, alles klar.
Die Sortierung mit "2019" links finde ich nutzerfreundlicher.
Jetzt müssten wir nur noch "enzyklopädisch" formulieren, wie diese Art der statistischen Auswertung benannt wird, falls "die Wikipedia" die Zahlen übernehmen will… „Bestands-Statistik“? Gruß --Chiananda (Diskussion) 22:06, 7. Nov. 2019 (CET)Beantworten
Die Gloria Gray ist in Kategorie:Transsexuelle Person *und* in Kategorie:Frau. Die zähle ich momentan doppelt. Bei Gabriel J. Martín ist es analog, nur eben mit "Mann".
Ich muss nochmal die 2GB Text im Logfile durchforsten. Da werden ganz sicher noch ein paar seltsame Fälle sein. Und den Kategoriebaum muss ich auch nochmal durchgucken ob es noch irgendwo Probleme gibt.
Ach ja! Kategorie:Kampfsportler oder -künstler ist auch nicht richtig, die nannte sich bis 2013 Kategorie:Kampfsportler … ab da gibts Werte. Ist beim nächsten Lauf auch gefixt. --Wurgl (Diskussion) 22:27, 7. Nov. 2019 (CET)Beantworten
Sorry fürs zweimalige Nachschieben eben, bei mir fällt der Groschen nur langsam ;)
Transsexuelle sind einfach nur eine Untergruppe von Transgender, und wie gesagt: von 195 Transgender-Personen sind 176 entweder m oder w. Transgender ist eigentlich eine Parallelkat (Geschlechtsidentität) der 3 Geschlechtskats "m, w, u" – nur "nb" wäre Kandidat für beide Seiten, wird aber derzeit gar nicht erfasst.
Dass du jetz noch feintunen kannst, finde ich respektabel, vielen Dank für die Mühen :)
Noch ein Hinweis zu denjenigen Kategorien, die sich live auslesen lassen mit PAGESINCATEGORY, beispielsweise "342.166 BKS": Vielleicht wäre ganz links eine 2. Spalte von Vorteil, die das Ergebnis von {{PAGESINCATEGORY: Kat-Name |all}} anzeigt, das könnte dann aber auch so aussehen: Kategorie:Person nach Geschlecht = 4. Oder es findet vorher eine Abfrage des Kategorieinhalts statt und in der Spalte wird nur eine Zahl angezeigt, wenn es keine Unterkategorie gibt: {{PAGESINCATEGORY: Kat-Name |subcats}} = 0 (weil Unterkats ja nicht auch live ausgelesen werden können).
196 der 198 Staatsangehörigkeiten lassen sich live auslesen, bei Chinesen und auch bei Dänen könnte man mit 3 × PAGESINCATEGORY eine Livesumme bilden.
Nachdem ich die Sportler-Tabelle gecheckt habe: Darf ich dir meine Tabellenkopf-Verbesserung anbieten, die das Sortieren der Zahlen und Prozente ermöglicht?
Und LOL: Du Angeber hattest dich als "Kampfsportler" einsortiert – musste ich revertieren: mir fehlt die Relevanz! ;)  Gruß --Chiananda (Diskussion) 23:03, 7. Nov. 2019 (CET)Beantworten
Noch 2 Bitten: Könntest du die einzelnen Tabellen mit Überschriften "== … ==" unterteilen, damit sich leichter nur Teile der Seite kopieren lassen?
Und die Spaltenüberschrift "Geboren" passt nicht bei den oberen Tabellen und sollte angepasst werden (Tätigkeit, Kategorie, Sportart). Bei den Staatsangehörigkeiten: Passt es da, weil nur die Geburtszugehörigkeit ausgewertet wurde, oder wurden alle Staatsbürgerschaften einer Person berücksichtigt? Gruß --Chiananda (Diskussion) 15:26, 8. Nov. 2019 (CET)Beantworten
Ich hab mal neu generiert.
Ist so wie deine Vorlage, ohne Div. und Unbek., nur die Tabellenüberschrift hab ich anders.
Zu deinem PAGESINCATEGORY denk ich noch nach. Ein Problem ist das nicht. Bedenke aber, dass das nicht unbedingt live ist. Das sind Werte aus dem Cache. Und manchmal ist das der aktuelle Wert, machmal auch der vor ein paar Tagen, kommt drauf an, wie oft die Seite angeguckt wird.
Bei Graphikus steht ganz oben Wikipedia hat heute 2.362.794 Artikel Wenn du seine Seite minimal änderst (nur Vorschau!!!) dann steht da aktuell die Zahl 2.362.806. Es fehlen bei ihm also 12 Stück (wenn du guckst kann das wieder anders sein). Ist also nur so halb-live. --Wurgl (Diskussion) 17:30, 8. Nov. 2019 (CET)Beantworten
Ja ist es denn schon Weihnachten? ;-)  *tabellen ausdruck und an wand häng*
Die Parserfunktion {{ARTIKELANZAHL}} liest meiner Erfahrung nach die Gesamtanzahl aller Seiten im ANR wirklich live aus, teils mit sekündlichen Veränderungen: 2.362.830 Seiten im Augenblick meines Abspeichern, und 2.907.590 live bei jedem Seitenaufruf.
Bzgl. der Tabellenbreiten doch nochmal meine Nachfrage, ob vielleicht 10 Jahre ab 2009 als Vergleichsspanne reicht? Gruß --Chiananda (Diskussion) 18:33, 8. Nov. 2019 (CET)Beantworten
’Nen Nachtrag hätte ich da noch, mit 3 kleinen Wünschen:
Wäre ein Verschieben von "Sportler, Schauspieler, Künstler" zu „Person nach Tätigkeit“ möglich?
Könnten bei den Sportlern noch die "Sportler" mit Gesamtzahlen wiederholt werden? Und "Musiker" und "Filmschaffender" auch in der "Künstler"-Tabelle wiederholt werden?
…Mist, jetzt hab ich meine 3 Wünsche aufgebraucht. Bleibt nur übrig, dir ein Beispiel zur Einfärbung der Hauptkategorien zu zeigen, das sich vorteilhaft auf die Sortierung auswirkt, wenn zuerst die "G."-Spalte und dannach mit gedrückter Shifttaste zweimal eine der Mengenspalten geklickt wird… Gruß --Chiananda (Diskussion) 05:33, 9. Nov. 2019 (CET)Beantworten

Zwischending[Quelltext bearbeiten]

Ich hab mal die oberste Tabelle ein wenig anders dargestellt, den waagerechten Abstand zwischen Text und Spaltenbegrenzungslinie halbiert.
Dann dieses PAGESINCATEGORY. Gefällt mir gar nicht. natürlich kann ich jede Kategorie angucken, ob es Unterkategorien gibt und nur wenn es keine gibt die Zahl angeben. Werden dann wohl sehr wenige Zahlen.
Ach ja, und Tausenderpunkte gibts auch.
Ausgabe nur ab 2009 ist kein Thema, aber erstmal diese Variante. Eventuell nur den linken Abstand verringern, das hat nur in der ersten Summenzeile und in der Spalte mit den Prozentwerten sichtbare Auswirkungen, da würde auch der Wikisource nicht so groß werden.

--Wurgl (Diskussion) 17:44, 10. Nov. 2019 (CET)Beantworten

Jetzt zeigt mir die obere Tabelle rechts 1 Spalte mehr an (auch die 2006er), wirkt insg. allerdings etwas gequetscht – ich glaube nicht, dass sich dieser Platzgewinn wirklich lohnt… Das padding beansprucht viel Quellcode, aber falls es gebraucht würde, empfehle ich die Verkürzung von
  • | style="padding-right:0.2em; padding-left:0.2em" |
  • zu: |style="padding:0.2em"| (also auch ohne Lehrzeichen zwischen Pipe und Code). Ich glaube, der Standardwert liegt bei 0.3em.
Auf der anderen Seite: Falls die einzelnen Tabellen auf Unterseiten aufgeteilt würden, könnte die Quellcodeaufblähung verkraftet werden.
Die Summe-Tabelle würde ich zuoberst anzeigen, denn sie liefert Durchschnittswerte zum Vergleich (wie auch die Wiederholung der jeweiligen Hauptkat in den Untergruppen-Tabellen).
Ich habe mal zum Vergleich temporär die Daten aus früheren Auswertungen darunter gesetzt, sie enthalten +17 Bios aus "Intergeschlechtliche Person", von denen 13 doppelt gezählt werden, weil auch "m/w".
PAGESINCATEGORY hat "R" als Parameter für den Rohzustand ohne Tausenderzeichen: {{PAGESINCATEGORY:Mann|R}} = 772491. Summierungen dann wieder mit {{formatnum:}} formatieren. Bei deiner neuen "Summe2" brauchst du nur |pages}} zu ersetzen durch |R}}, dann stimmen die Zahlen. Ich habe das umseitig mal temporär gemacht.
Aber die Anzeige der Live-Zahlen bringt tatsächlich für die meisten Kats kein sinnvolles Ergebnis, eigentlich nur für kleinere Unterkats sowie für alle 198 Staatsangehörigkeiten (außen Chinese und Däne, die haben je 2 Unterkats).
Und der Mehrwert der Live-Anzeige wird bei deinen detaillierten Tabellen auch nicht wirklich gebraucht (außer bei "Summe2"), denn die 2019er-Zahlen sollten als Orientierung reichen.
Zu welchem Stichdatum werden die Daten denn berechnet? Für "2018" am 31.12.? Sodass sich sagen lässt: "Im ganzen Jahr 2018 gab es x Bios" ?
Deine großartige Unternehmung und die Ergebnisse sind sehr beglückend, weil sie alles Relevante abdecken. Wenn die Auswertung zum Stichtag 31.12.2019 23:59 Uhr erfolgt und alle Jahre jeweils zum 31.12. berechnet wären, ergäbe sich eine weltweit einzigartige WP-Statistik, die kaum Fragen offenließe. Dann könnte zur 750.000. Bio noch eine Spalte vorgeschaltet werden, um die zweimonatliche Entwicklung zu verdeutlichen. Und dann wieder am 31.12.2020.
Was die drei Landesportale interessieren dürfte, wäre eine Auswertung nach "Deutscher, Ö.er, Schweizer" statt nach "m/w". Aber das schüttelst du vermutlich ausm Ärmel… ;-)
Dankende Grüße --Chiananda (Diskussion) 17:21, 11. Nov. 2019 (CET)Beantworten
Beim Padding ist links/rechte 0.4em als Wert und oben/unten 0.2em.
Das "|R" kannte ich tatsächlich nicht. Ich guck mal.
Summe nach oben ist kein Problem.
Stichzeitpunkt ist 31.12 24:00 Uhr (UTC), also 1.1. um 1 Uhr nachts hier. Ich kann das ändern, aber ich glaub das ist vollkommen Banane.
Naja, Ärmel nicht unbedingt, aber ist wohl machbar.
Ich hab gestern meine Denkmurmel gequält. Und zwar mit der Kategorie:Person nach Staatsangehörigkeit, die gibts erst seit Nov. 2009‎. Auf über die Logeinträge werde ich nicht schlau (und mein Script auch nicht). Da steht zwar ganz unten als Änderungskommentar "Kategorie:Person nach Staat umbenannt in Kategorie:Person nach Staatsangehörigkeit: …" aber da muss was anderes auch noch passiert sein, Kategorie:Person nach Staat gibt es zwar, aber erst seit Mai 2011‎ (abgesehen davon, dass beim Umbenennen normalerweise die Version davor ganz normal sichtbar sind). Hab da noch keine Idee, wie ich das Problem löse. Da bräuchte ich jemanden von damals, der weiß was da passiert ist. --Wurgl (Diskussion) 17:52, 11. Nov. 2019 (CET)Beantworten
Zu den Staatlichen kann ich nix sagen, vermutlich ist "Kategorie:Person nach Staat" eher thematisch zu verstehen: Leute, die mit dem Staat in Zusammenhang stehen.
Das mit der Stichzeit war eher symbolisch gemeint, aber es ist gut zu wissen, dass das Jahresende maßgebend ist für die Angabe "2018". --Chiananda (Diskussion) 18:46, 11. Nov. 2019 (CET)Beantworten
Inhaltlich ist mir die Kategorie egal. Ich will die Änderungen nachvollziehen können. Wie nannte sich diese Kategorie vor der Umbenennung. Die folgende Kategorie wurde auch verschoben: https://de.wikipedia.org/w/index.php?title=Kategorie:Perserreich&action=history nur da geht die Versionsgeschichte über die Umbenennung hinaus weiter und per Logeintrag kann ich das auch schön nachvollziehen. --Wurgl (Diskussion) 19:40, 11. Nov. 2019 (CET)Beantworten
Wurgl, ich hatte vergessen, vorzuschlagen in der Spalte "Aktuell" die Vorlage {{Metadaten Artikelanzahl|Katname}} einzusetzen:
{{formatnum:{{Metadaten Artikelanzahl |Wissenschaftler}}}} = 164.396 (akt. Woche)
Viele habe ich schon dafür angelegt (außer für Staatsbürgeschaften, die gehen live mit PAGESINCATEGORY, außer 5.449 Chinesen & 8.441 Dänen) – falls du den Einbau für sinnvoll hältst, würde ich auch die restlichen vorbereiten… Gruß --Chiananda (Diskussion) 02:32, 19. Nov. 2019 (CET)Beantworten
Und noch ein Hinweis zum Feintunen: Ein Mithelfer hat bei Geburtsjahrhunderten noch Zwischenkategorien entdeckt (nach dem Muster Kategorie:Geboren im 19. oder 20. Jahrhundert), schau mal dazu erste Zahlen auf „Statistik ab 1601: PetScan“…
Sollte die „Kategorie:Geboren unbekannt“ in deine Auswertung einbezogen werden?
Übrigens wundere ich mich (auch dort), warum nur 91 % aller Biografien eine Staatsbürgerschaft haben. Gruß --Chiananda (Diskussion) 18:09, 22. Nov. 2019 (CET)Beantworten
Hmm Kategorie:Geboren im 19. oder 20. Jahrhundert da guck ich mal, ich dachte die werden sowohl in der Kategorie:Geboren im 19. Jahrhundert als auch in Kategorie:Geboren im 20. Jahrhundert gezählt. Irgendwas mit der Kategorienhierarchie war so in der Art.
Und ohne Staatsbürgerschaft guck ich auch. Ich glaub Nordmazedonien fehlt als Staat, aber das macht keine 9% aus. --Wurgl (Diskussion) 18:14, 22. Nov. 2019 (CET)Beantworten
@Chiananda: Ich nehme einfach diese Kategorien Geboren im xx oder xx+1 Jahrhundert auch in die Liste auf. Da wird es immer noch Differenzen geben, doch das sind die aus vorchristlicher Zeit. Magst du bitte bei Wikipedia:WikiProjekt Kategorien/Diskussionen/2019/November/23#Geboren im xx oder xx+1-Schema ist inkonsistent vorbeigucken? Für die Auswertung der bisherigen Jahre ändert die Korrektur nix, aber für den nächsten Jahreswechsel. Die aus Kategorie:Geboren im 1. oder 2. Jahrhundert werden halt doppelt gezählt weil die Kategorie in beiden drinnen ist. Wenn unbedingt gewünscht kann ich natürlich da was Spezielles basteln, so dass die nur in diesem Zwischending drinnen sind. --Wurgl (Diskussion) 19:30, 23. Nov. 2019 (CET)Beantworten
Habe die Katdisk angeschaut, kann aber selber da nix beitragen; gut, dass du Unstimmigkeiten herausfindest :)
Zur Berechnung: Ich könnte mir eine 50:50-Aufteilung der entspr. Zwischenjahrhundert-Seiten vorstellen, also einfach "Seitenzahl / 2" pro Jh.
Und ich möchte vorschlagen, dass wir die bisherigen umseitigen Statistiken schonmal zum gewünschten Seitentitel verschieben, weil ich sie ab und zu verlinke. Wünschenswert wäre die Abteilung "Wikipedia:Statistik", dort ist aber die Seite "Wikipedia:Statistik der Biografien" leider belegt; doch der dortige Inhalt zur 500.000. Biografie wäre eh demnächst beim Eintreffen der 750.000. zu verschieben, also könnte das bald vorgenommen werden, oder? Gruß --Chiananda (Diskussion) 22:55, 23. Nov. 2019 (CET)Beantworten
Das Verschieben lass mal. Das geht immer noch. Eventuell wenn ich die nochmals erstelle, bin aktuell am suchen von Problemen und so einige hab ich gefunden.
Abgesehen davon, will ich hier so ziemlich alles was ich generieren kann auch ausgeben. Beim nächsten Lauf kommt da noch einiges dazu, eventuell mehrere Seiten.
Generell: Die Zahlen herausfinden ist eine Sache (Script läuft eine Woche), daraus dann Tabellen erstellen ist eine andere (Script anpassen + Ausgabe generieren ist eine Sache von einzelnen Stunden). Wenn ich Zahlen hab, kann ich alles addieren, subtrahieren und sogar dividieren. Aber erstmal brauch ich die Zahlen.
Zu denen ohne Staatsangehörigkeit: Es gibt die Kategorie:Staatenloser Ich hab ein paar angeguckt und dort ist sowohl ein Staat, als auch diese Kategorie. Aber siehe oben, ich kann das Auswerten, wie man das dann zuordnet … mal sehen. --Wurgl (Diskussion) 23:20, 23. Nov. 2019 (CET)Beantworten

Vorschläge 2020[Quelltext bearbeiten]

Kommst du irgendwie an aktuelle Werte ran wie 2009 unter "Wikipedia:Statistik der Biografien/250.000 #Anzahl biografischer Artikel"?

Sprachversion deutsch englisch französisch polnisch spanisch
Gesamtzahl Artikel 854.500 2.704.600 752.900 570.900 436.700
Biografien 250.000 567.300 161.300 110.300 77.100
Frauen-Anteil 14,6 % ? % ? % ? % ? %
Biografien-Anteil 29,3 % 21,0 % 21,4 % 19,3 % 17,7 %

Gruß --Chiananda (Diskussion) 03:55, 5. Dez. 2019 (CET)Beantworten

Ich trenne das mal mit einer Zwischenüberschrift und der Frage, wie ich dir noch bei der Zahlenlese helfen kann…?
Eine Sache war mir aufgefallen, als du frühere abweichende Kat-Namen erwähnt hast: Eigentlich kann das ignoriert werden, weil es mAn ausreicht, heutige Kats auszulesen, zu gendern und nach Erstelldatum zuzuordnen, oder nicht?
Übrigens könnten die leeren Prozentzahl-Zellen (über Mann/Frau) vielleicht mit dem Anteil der Summe an allen Biografien angezeigt werden? Oder ihrem Anteil an der jeweiligen Bereichskat?
Die Statistik sollte mit den Zahlen aller Bios sowie der Bereichskats beginnen, dann folgenden die Einzeltabellen zu den Bereichen, wobei die Zahlen der Bereichskat wiederholt und dann aufgeteilt werden. Die leeren Prozentzahl-Zellen (über Mann/Frau) könnten den Anteil an den Bereichs-Biografien zeigen (in der obersten allg. Tabelle deren Anteile an allen Bios).
Sobald die endgültige Ausgabe fertig ist, sollte sie die (wöchentlichen) Live-Zahlen unter "2020" anbieten ({{Metadaten Artikelanzahl}}), ich werde die Einträge vorbereiten – nur die Staatsangehörigen können live angezeigt werden (PAGESINCATEGORY). Statt live Prozente zu berechnen (geht wohl nicht), reichen vorformulierte PetScan-Links zur Ermittlung der Männer- oder Frauenanzahl.
Ich möchte noch vorschlagen, gleich die (ungegenderten) Zahlen der D-A-CH-Angehörigen aller Kats zu erheben, ich glaube das würde die ganze Angelegenheit abrunden. Falls die Aufbereitung zuviel Aufwand macht, dann eine entsprechende Version zur 750.000. Biografie (noch −190.724) nur mit D-A-CH-Zahlen, sodass sich zwischen beiden Tabellen jeweils wechseln ließe.
Soweit auf die Schnelle einige rohformulierte Gedanken dazu… Falls die endgültige Ausgabe nicht gleich alle Bedingungen erfüllt, kann ich gerne "nachpolieren". Liebe Grüße --Chiananda (Diskussion) 20:50, 29. Dez. 2019 (CET)Beantworten
Ah, da war noch eine Idee: Jede Tabellenzeile („|-“) könnte mit einer eigenen id="Name der Kategorie" versehen werden, sodass sie sich von Portal- oder Kat-Seiten anspringen lässt. --Chiananda (Diskussion) 20:56, 29. Dez. 2019 (CET)Beantworten
@Wurgl: Wie ist der Stand der Dinge? Karibikurlaub genossen? Der Zwischenstopp auf den Seychellen war entspannend? Bereit für den Endspurt zur 750.000. Bio? Es fehlen noch -190724, fast 100 werden täglich neu angelegt…
Mir ist eine Unstimmigkeit aufgefallen anhand der Gesamtzahlen ab 2009: Sie stimmen nicht mit den Zahlen der Auswertungen zusammen, die ich umseitig nach oben verschoben habe. So, als wäre eine Jahresspalte verrückt, oder jeweils zum 1.1. eines Jahres terminiert statt zum 31.12.…?
Ich hatte weiter oben schon einige Vorschläge gemacht – was davon hältst du für sinnvoll?
Falls du keine Zeit für das Projekt hast, kann ich auch die bisherige Seite (aufgeteilt auf 2) verschieben zu "Wikipedia:Statistik/Biografien" o.ä. und dort ausgestalten…
Könntest du nebenbei noch die Artikel-Gesamtzahlen für die Jahre rüberreichen, dann errechne ich damit den proz. Anteil aller Bios an allen Artikeln des Jahres? Grüße… und ein gutes 2020 :)  --Chiananda (Diskussion) 22:46, 15. Jan. 2020 (CET)Beantworten
Ja, es gibt einen Unterschied. Aber nicht 10.000 sondern bei aktuell 1749. Ich nehme den 1.1 als Stichtag in der Überschrift, du den 31.12. Also musst du dein 2018 mit meinem 2019 vergleichen. Ich kann jetzt nicht sagen, ob ich bei der Auswertung reine Weiterleitungen wie Hansen Hoepner mitgezählt habe. Das erklärt aber nicht alle (es gibt aktuell insgesamt 2039 solche Weiterleitungen, da ist es unwahrscheinlich dass 1700 davon Sportler sind). Aber wie finde ich die fehlenden? --Wurgl (Diskussion) 00:03, 16. Jan. 2020 (CET)Beantworten
Also bei den Gesamtzahlen sind große Unstimmigkeiten:
704.876 in "2019"
735.154 am 23.09.2019 (PetScan)
632.056 in "2017"
652.550 am 22.06.2017 (wp:kurier)
464.824 in "2013"
500.000 am 16.09.2013 (Auswertung)
Irgendwas kann da nicht stimmen… In einzelne Kats habe ich jetzt nicht reingeschaut, und WLen dürften eigentlich nicht das Ausschlaggebende sein… Warum sollten in deinen Jahressummen am 31.12. Zehntausende weniger drin sein als Monate vorher vor Ort ausgelesen? Ich glaube auch nicht, dass es irgendwas mit Umbennenung oder Löschung zu tun hat… was könnte die Ursache sein? Gruß --Chiananda (Diskussion) 00:23, 23. Jan. 2020 (CET)Beantworten
Also ich lass es nochmals komplett laufen. Dauert, hab Geduld. Und diesesmal werden Weiterleitungen wie vollwertige Biografien gezählt. Zusätzlich hab ich im Dezember einen Fehler gefixt, weiß nicht mehr genau was, war aber nix das so stark ausschlägt. Dennoch: Auf Verdacht den Code anstarren bringt nix. Irgendeine kleinere Gruppe mit Unterschied raussuchen und dann diese vielleicht 100 Kandidaten untersuchen, bei 100.000 ist das sinnfrei. --Wurgl (Diskussion) 00:30, 23. Jan. 2020 (CET)Beantworten

Sportler-2[Quelltext bearbeiten]

@Chiananda: ich bin am Suchen und haben *EINEN* gefunden. Bill Polian Der ist bei Petscan drinnen, weil die Kategorienkette Kategorie:Mitglied der Pro Football Hall of Fame –> Kategorie:Mitglied einer Hall of Fame (American Football) –> Kategorie:Mitglied einer Hall of Fame (Sport) –> Kategorie:Sportler nach Auszeichnung letztendlich zu Kategorie:Sportler führt. Im Quelltext findest du die Kategorie aber nicht und ich werte nur den Quelltext aus. Ich bin einfach nicht in der Lage mit vertretbarem Aufwand Kategorien auszuwerten, die irgendwie magisch über Vorlagen oder Module hinzukommen, da sehe ich keine Chance. Okay, das ist erstmal ein Fall. mal sehen was noch kommt. --Wurgl (Diskussion) 22:23, 30. Jan. 2020 (CET)Beantworten

Verstehe: die Kat-Tiefe. Und ob man alle Bios "erwischt". Eine Unterkat vergessen, schon stimmt die Gesamtzahl und das Anteilsverhältnis der gesamten Oberkat nicht mehr… Hm.
Ach, nehmen wir doch einfach unauffällige Schätzwerte ;)  --Chiananda (Diskussion) 00:49, 31. Jan. 2020 (CET)Beantworten
Nein! Nicht die Kat-Tiefe! Es geht darum, dass ich den Source-Code des Artikels auswerte (ja und den Source-Code der Kategorie-Seiten) und nicht das, was inklusive aller Vorlagen draus wird. In dem Fall wird durch Vorlage:Infobox NFL-Spieler inaktiv der Kollege in die Kategorie:Mitglied der Pro Football Hall of Fame einsortiert. Und je nach Parametern in die Kategorie:Mitglied der College Football Hall of Fame oder Kategorie:Mitglied der Canadian Football Hall of Fame. Ich müsste die Vorlagen auswerten und damit programmiere ich die Wikipedia nach. Das ist der Punkt wo ich aussteige. Momentan sieht es noch nach einem weiteren Problem aus, bin beim Buchstaben "J" und das ist der einzige solche Fall. Alle anderen Artikel gab es zum Jahreswechsel noch nicht oder es wurden zwischenzeitlich Kategorien hinzugefügt. Morgen geht es weiter, erstmal müssen die Sportler durchlaufen, dann sehe ich was los ist. --Wurgl (Diskussion) 01:10, 31. Jan. 2020 (CET)Beantworten
Das passt. Ich hab die 130.594 Männer die gestern von petscan ausgegeben wurden durchlaufen lassen und komme auf 129.664 GESAMT, davon 129.661 Männer (bei 3 Stück fehlt offenbar die Kategorie Mann oder die sind bei Diverse einsortiert; Frauen wurden keine gefunden). Differenz ist 930. 927 sind im Debug-File als Nicht-Sportler zu erkennen, davon 912 die seit 1. Januar angelegt wurden, von denen gab es zwar 14 Artikel bereits zum Jahreswechsel, die ich angeguckt haben waren zu dem Zeitpunkt entweder im BNR oder es waren Importartikel. Dann gibts noch 15 Stück die es als Artikel gab, da hab ich diesen einen Bill Polian gefunden und alle anderen kontrollierten hatten zum Jahreswechsel keine Sportler-Kategorie. Der volle Lauf davor hat 129.656 männliche Sportler ergeben, die Differenz zu 129.664 (8 Stück) sind höchstwahrscheinlich solche, die entweder in den BNR oder die Biografie-Werkstatt verschoben wurden oder gelöscht wurden. Ich sehe da keine nennenswerte Differenz. --Wurgl (Diskussion) 11:28, 31. Jan. 2020 (CET)Beantworten

Was hab ich an Daten?[Quelltext bearbeiten]

Ausgeben kann ich die Kategorien wie auf der Vorderseite. Trennen kann ich nach den Kategorien Deutscher, Österreicher, Schweizer und Liechtensteiner (Liechtenstein musst einfach sein). Auch nach Weiterleitung kann ich trennen. Und alle die nach Frau/Mann/Diverse/Unbekanntes Geschlecht. Und bei all denen jeweils der Jahreswechsel von 2004/2005 bis 2019/2020. Nur die Ausgabe muss ich noch schreiben, aber wie? --Wurgl (Diskussion) 11:34, 31. Jan. 2020 (CET)Beantworten

Hui, sieht ja gut aus :)  Und mit L.stein heißt es ja ab jetzt D-A-CH-L-Länder ;)  Wieviele L.er im 1. Jh.?
Ich werde das am WE mal genauer in Augenschein nehmen. Bei "2020" bleibt unklar, zu welchem Zeitpunkt ausgelesen wurde. Und spendier der "erson ohne Staatsangehörigkeit" noch’n „P“ ;)
Was meinst du mit „die Ausgabe schreiben“? Optimal wäre natürlich, wenn die Länderanteile zusätzlich nach "Männer/Frauen" ständen, das würde die komplette Statistik komprimieren. Wäre natürlich unübersichtlicher, aber "durchlesen" soll ja eh keiner. Oder zwei gleiche Tabellen mit getrennten Angaben? Wenn zwei, dann könnten die Länderanteile immer noch zur jeweiligen Hauptkat der Gendertabelle rüberkopiert werden, um zumindest einen entsprechenden Überblick zu erhalten.
Ach so: Könnten noch die Prozente der jeweiligen Unterkat berechnet werden, also Anteile der Aktivisten an den "Personen nach Tätigkeit" usw.? Und der Anteil der Oberkat an allen Bios, plus Anteil aller Bios an der Gesamtartikelzahl?
Übrigens wurde die Kat "Divers" gelöscht, ab jetzt sehe ich "Kategorie:Nichtbinäre Person" als verbindlich an, weil dort seit Monaten alle drinstehen, die nicht "m/w/u" sind (169; PetScan-Check). Alle Intergeschlechtlichen sind m oder w, 4 sind nb.
Wenn die Auswertung als "offiziell" deklariert wird, wäre es schön, wenn du noch ein paar methodische Erläuterungen in einem unteren Abschnitt zusammenstellen könntest. Ich denke, dass auch die Presse über kurz oder lang darüber berichten wird, und die wäre dankbar für eine sachverständige Erklärung… Gruß --Chiananda (Diskussion) 20:49, 31. Jan. 2020 (CET)Beantworten
Meine Zahlen sind immer exakt am Jahreswechsel zu UTC, also 1 Stunde nach Mitternacht.
Dass die Kategorie "Divers" gelöscht wurde ist schade. Dass mir das keiner gesagt hat auch. Gibt es also keine in der Kategorie.
Ausgabe schreiben: ich muss Code programmieren, der aus den internen und maschinenlesbarem Datenzeugs was menschlich Lesbares erzeugt.
Mir isses egal wie es aussehen soll. Mach einen Vorschlag, ein Beispiel und ich programmier das. --Wurgl (Diskussion)

Falls du den Gesamtvorgang in Bereiche aufteilen kannst, schlage ich vor, die Staatsangehörigen getrennt auszugeben, weil das die einzigen sind, die mit PAGESINCATEGORY live ausgelesen werden können und nicht nach D-A-CH-L zu unterscheiden sind. Und für die wird es eh eine eigene Seite geben (215 kB). Entsprechend würde ich dort das "2020" ersetzen durch "live" – statt Männer/Frauen baue ich PetScan-Abrufe dafür ein, bei denen nur der Kat-Name (URL-encodiert) auszutauschen wäre. Die ersten 4 Staatskats sowie Chinesen & Dänen würden mit {{Metadaten Artikelanzahl}} ausgelesen; die Aufrufe könnten aber auch hinterher händisch eingefügt werden:

<!-- Biografien nach STAAT -->
|Person nach Staatsangehörigkeit = 682960 <!--Datum=2020-01-30 20:53:00-->
|Person nach historischer Staatsangehörigkeit = 43088 <!--Datum=2020-01-30 20:53:00-->
|Person ohne Staatsangehörigkeit = 5516 <!--Datum=2020-01-30 20:53:00-->
|Staatenloser = 76 <!--Datum=2020-01-30 20:53:00-->
|Chinese = 4077 <!--Datum=2020-01-30 20:53:00-->
|Däne = 5886 <!--Datum=2020-01-30 20:53:00-->

Die jetzt leeren Felder würden mit entsprechenden Anteilsprozenten gefüllt.

Als nächsten Block könnten die Geburtsjahrhunderte und -jahrzente ausgeformt werden, zusammen auf einer Unterseite (44 + 25 kB). Ich könnte die Metadaten-Einträge und PetScan-Links vorbereiten, um dann statt 2020 "wöchentlich" auszulesen.

Falls aber alles nur in einem Aufwasch erledigt werden kann, müsste ich mich die Tage mehr reinknien…

Übrigens kannst du viele Leerzeichen sparen, wenn du Pipes und Style aneinanderklebst, also statt:

  • | style="text-align:left" |

aneinander:

  • |style="text-align:left"|

Macht PCs WSTM auch. Zwar allg. nicht gern gesehen, aber bei diesen Umfängen könnten auch weitere Leerzeichen eingespart werden:

  • ||a||b||c||d||

ohne Zwischenräume. Gruß --Chiananda (Diskussion) 23:51, 31. Jan. 2020 (CET)Beantworten

So, ich hab das die Tage mal aufgeteilt.
Die Leerzeichen im Source mach ich nicht raus. Beim Platz ging es mir um die Darstellung im Browser, der Quelltext ist mir recht egal, Hauptsache lesbar.
2020 ersetze ich nicht. 202 stellt den Jahresanfang dar, das sind andere Zahlen als "live".
Und den Rest hab ich nicht verstanden. --Wurgl (Diskussion) 14:59, 6. Feb. 2020 (CET)Beantworten

Filmeditorinnen fehlen[Quelltext bearbeiten]

Lieber Wurgel,

könnet Du bitte bei Deinem nächsten Update in der Sektion "Filmschaffende" die Kategorie:Filmeditor mit aufnehmen bitte? Diese immerhin knapp 1600 Menschen fehlen noch... Liebe Grüße von --Sprachraum (Diskussion) 03:20, 27. Nov. 2020 (CET)Beantworten