Benutzer:YMS/Suche

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Kleine Liste von (RegEx-)Suchen nach verbreiteten Fehlern, die in üblichen Typo- oder Formfehlerlisten nicht auftauchen.

Auch wenn in den einzelnen Abfragen versucht wird, häufige false positives auszublenden, gibt es in der Regel dennoch viele davon. Die Ergebnisse sind generell mit Sorgfalt abzuarbeiten.

Suche Typische Fehler Typische false positives Anmerkung


And-1
insource:"and" insource:/(\]\]('')?,? and | and ('')?\[\[)/ -insource:/\]\] and (band|friends|his |her |partners |the )/i

  • Titel, Zitate, Eigennamen
  • Kommentare mit englischen Quellpassagen
  • "Earl of X and Y"
  • "Prince and The Revolution"

Nur nach/vor Link, weil englische Titel und Namen häufig vorkommen, aber relativ selten teilverlinkt sind


And-1b
insource:/(\]\]('')?,? (a|e|en|i|ja|og|y) | (a|e|en|et|i|ja|og|y) ('')?\[\[)/

[1]

  • Titel, Zitate, Eigennamen
  • Kommentare mit fremdsprachigen Quellpassagen

Internationale Variante von And-1 - wesentlich schlechteres false-/true-positive-Verhältnis, häufig schwieriger zu beurteilen (tritt dafür aber auch deutlich seltener auf)


And-2
insource:" and " insource:/( and (das |dem |der |des |die |ihr|sein|und ))|( (er|es|ging|mit|vorbei|wird|sie|soll|und) and )/

  • "Der Preis ging and Karl"
  • "Karl and und Heinz"
  • "live and die"



Apostroph-1
insource:" s " insource:/\]\]['’]s /

  • Titel, Zitate

Nur nach Link weil da vergleichsweise oft falsch


Badlinks-1
insource:/(actor|actress|album|artist|athlete|\(Australia|author|[ \(]band|Canada|city|company||[ \(]France|Kingdom|[ \(]label|magazine| man|\(Mexico|musician|newspaper| player|publisher|[ \(]song|state|States|[ \(]website)\)\|/ -insource:/ommons.+\)\|/

[2]

  • [[Variety (magazine)|Variety]]
  • Kommentare
  • "[[:en:Variety (magazine)|Variety]]"

Links, die beim Übersetzen übernommen wurden und so kein korrektes Lemma in der deutschen Wikipedia sind; siehe separate Tabelle mit einzelnen, häufigen (>= 5 ANR-Links) Badlinks ohne false positives und ohne aggressiven Ausschlussfilter


Datum-1
insource:/(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember|((Jan|Feb|Mär|Apr|Mai|Jun|Jul|Aug|Sept?|Okt|Nov|Dez)\.)) [1-9][0-9][0-9][0-9][0-9]/

  • "SZ vom 12. Januar 20212"
  • Dateinamen

Praktisch immer nachzurecherchieren


Durchkopplung-1
insource:/[^-]-\]?\]?und /

[3]

  • "Finanz-und Steuerrecht"
  • "Finanz -und Steuerrecht"
  • Dateinamen, Weblinks

Sehr viele Titel - nicht ungeprüft korrigieren


Einheit-1
insource:"Kilometer" insource:/ ([Nn]ach|[Vv]on) (weiteren )?(etwa )?[0-9]+ Kilometer[ ,\.<]/

  • "Im Umkreis von 50 Kilometer"

Mit Vorsicht behandeln ([1], [2])


Einheit-2
insource:/([$€¥¢£]|EUR|USD|DM|Mark) ?[0-9]+([0-9,\.']+[0-9]+)?( Mio\.|Millionen\Mrd\.)? ?([$€¥¢£]|US|Dollar|Euro|EUR|Yen|Cent|Pfund|GBP|[Bb]ritisch|DM|Mark)/

[4]

  • "$ 4000 Dollar"
  • Weblinks



Grad-1
insource:"Grad" insource:/° ?Grad/

  • "Neigung von 30° Grad"
  • "Secondaria di II° Grado"[note 1]



Grad-2
insource:/[0-9]°[a-z]/i

Viele Titel - nicht ungeprüft korrigieren


Grad-2b
insource:/[0-9]°[a-z]/i -insource:/[0-9]°[NSEOW]/

  • "37°C"
  • Dateinamen

Simplifizierte Form von Grad-2 ohne (potentielle) Koordinaten


Klammer-1
insource:/(([^\(]{2}[^-–\]'])|([^-–](\]\]|'')))\)([a-zäöü]{2})/i -insource:/\)(acet|ami|benz|bis\(|but|carb|chrom|cyclo|diaze|eth|gly|hexa|mangan|meth|naph|nona|ox|phen|phosph|phth|piper|prop|pyr|silan|sulf|xo)/

[5]

  • "Brian (* 24.12.)war ein Prophet"
  • "[[Brian (Prophet)Brian]]"

Viele Titel und Zitate - nicht ungeprüft korrigieren


Klammer-1b
insource:/\)(das|der|die|ist|hat|hatte|mit|sind|und|war|wird|wurde) /

  • "Brian (* 24.12.)war ein Prophet"
  • Dateinamen, Weblinks
  • "Wi(e)der"

Simplifizierte Form von Klammer-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate


Klammer-2
insource:/,\)/

  • "Dies und jenes (u.ä,)"
  • "Peter (Schmitt), Paul (Müller,) Mary (Meier)"
  • "Jeder Vektorraum hat (unter der Annahme, dass das Auswahlaxiom gilt,) mindestens eine Basis"



Leerzeichen-1
insource:"nbsp" insource:/(  [a-züöä'\[<]|[a-züöä'\]>,\.]  )/i

  • "ein  - besonders schönes -  Beispiel"
  • diverse Formatierungen

Anders als normale doppelte Leerzeichen ( ) im gerenderten Artikel als doppeltes Leerzeichen sichtbar


Million-1
insource:"Million" insource:/([02-9]|[0-9,]1) Million /

  • "12 Million Euro"
  • Titel

Es gibt auch (wenige) Treffer für "Milliarde" statt "Million" (darüber sind's dann hauptsächlich false positives); kombinierte Suche leider nicht möglich ohne Timeout auszulösen


Million-1b
insource:"Million" insource:/([02-9]|[0-9,]1) Million (\[\[)?(Aufruf|Bücher|[bB]ritisch|CHF|DM|Dollar|Ein|etwa|Euro|EUR|Exemplar|Fahrzeug|fast|Frank|für|GBP|Jahr|Kilo|km|Kopie|Kubik|kW|mal|Mal|Mark|Mensch|Passagier|Pfund|Tonne|US-Dollar|USD|[Vv]er|Zu)/

[6]

  • "12 Million Euro"
  • Titel

Statischere Version von Million-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate (hier eher keine Ergebnisse für "Milliarde" wie bei Million-1)


Plenk-1
insource:/[^.][^.]\. \.[^.][^.]/

[7]

  • "Einfacher Satz oder Titel. ."
  • "Nachfolger wurde Brian II. ."
  • Dateinamen, Weblinks
  • "Verschiedene Kaliber, u.a. .44"
  • "Satzende. .NET (oder .de) ist besser, weil"



Plenk-2
insource:/ [\.,][^\.][^\.]/ -insource:/ \.(jp|pdf|png|net|svg)/i

[8]

  • "Satzende ."
  • "Halbsatzende ,"
  • "1 .Januar"
  • ",falsche einfache Anführungszeichen‘" (statt ‚xyz‘)
  • Dateinamen
  • "margin: .5em"
  • "Kaliber .44"
  • "Die TLD ist .de"



Plenk-3
insource:/,\./

  • "Titel,. S. 4"
  • Dateinamen, Weblinks
  • ",..."

Das hat schon sehr viele false positives, aber andersrum (".,") ist es viel zu oft korrekt


Wie Badlinks-1, nur viel einfacher mit Mediawiki-Bordmitteln.

Link Korrekt
ABC News (Australia) ABC News (Australien)
Android (operating system) Android (Betriebssystem)
Elle (magazine) Elle (Zeitschrift)
Fortune (magazine) Fortune (Zeitschrift)
Idolator (website) Idolator
Medium (website) Medium (Website)
New York (magazine) New York (Zeitschrift)
Paste (magazine) Paste (Zeitschrift)
People (magazine) People (Zeitschrift)
Pitchfork (website) Pitchfork Media
PMC (company) Penske Media Corporation
Time (magazine) Time
Vanity Fair (magazine) Vanity Fair (Magazin)[note 5]
Variety (magazine) Variety
Vice (magazine) Vice (Magazin)
Vogue (magazine) Vogue (Zeitschrift)
Wired (magazine) Wired

Vermeidung von Timeouts

[Bearbeiten | Quelltext bearbeiten]

RegEx-Suchen sind ressourcenintensiv und münden oft in Timeouts. Ggf. hilft dann die mehrfache Ausführung der Suche, um unterschiedliche Ergebnisse zu bekommen, besser ist aber die situationsweise Einschränkung mittels Index-Filtersuchen, die die Anzahl der Ergebnisse stark erhöhen und teilweise die Timeouts sogar ganz vermeiden. Die Suchen oben sind wo möglich bereits mit solchen Filtern ausgestattet (z.B. wird einem RegEx-insource:/° ?Grad/ ein Volltext-Index-insource:Grad angehängt, um nur diejenigen Artikel auf das exakte Muster zu durchsuchen, die überhaupt ein "Grad" enthalten).

Bei einem RegEx der Form insource:/(actor|artist|...|website)\)\|/ gibt es keine einzelne entsprechende Indexsuche. Beim Abarbeiten der Liste lässt sich dann ggf. schrittweise erst ein insource:actor anhängen, dann ein insource:artist, usw. Bei einer Suche insource:/,\)/ kommt auch das nicht in Frage. Der Suchraum lässt sich dann mit einem oder mehreren willkürlichen Filtern eingrenzen. So findet etwa insource:zu ca. die Hälfte aller Artikel, -insource:zu entsprechend die andere Hälfte. Das lässt sich mit anderen häufigen Wörtern, oder auch mit Kategorien (z.B. incategory:Frau) etc. ergänzen.

RegEx-Erläuterungen

[Bearbeiten | Quelltext bearbeiten]
    • Kein "et" im ersten ersten Block ("]] et"), wegen "et al"
    • Ausschließen: Dinge wie "Nachrichtenwebsite" (statt "website"), "Rockband" (statt "band"), "Roman" (statt "business man"), "Western Australia"
    • Ausschließen: "Commonscat:X (y)|z"
    • Erlauben: HTML-Kommentare die mit "und" beginnen, Links die mit Bindestrich enden
    • Leerzeichen zwischen Symbol und Zahl je nach Sprache da oder weg
    • Dezimal- und Tausendertrennzeichen nur innerhalb von Zahlen
    • 2x keine öffnende Klammer = Klammer-Mindestlänge: sehr viele false positives ("wi(e)der", "gehör(t)en"; Hubble-Sequenzen; ...)
    • kein Bindestrich: korrekte Form "(Halb-)offen"
    • Link oder kursiv erlaubt: selbe korrekte Form, nur verlinkt oder formatiert
    • 2x Buchstabe = Suffix-Mindestlänge: praktisch keine true positives
    • Chemikalien ignorieren ("Dihydrogen(mono)oxid")
    • Trotz der Folgewörter case-sensitive, um "million" in englischen Texten weiter zu vermeiden
    • Erlauben weil oft verwendet und nur typografisch unschön: "...", ". ..."
    • Erlauben: " ...", " .NET", " .jpeg"

Fehler-Anmerkungen

[Bearbeiten | Quelltext bearbeiten]
  1. hier korrekt: Ordinalzeichen º
  2. korrekt: ohne Buchstabe zusammen (4°), sonst mit Leerzeichen (4 °C)
  3. Verwendung bei geographischer Breite uneinheitlich, sowohl 4° N als auch 4°N in Gebrauch
  4. nur manchmal besser: (mit-)bestimmt
  5. Siehe auch Vanity Fair (englisches Magazin), das ist aber nicht die direkte Entsprechung von en:Vanity Fair (magazine)
Hinweis: Du darfst diese Seite editieren!
Ja, wirklich. Es ist schön, wenn jemand vorbeikommt und Fehler oder Links korrigiert und diese Seite verbessert. Sollten deine Änderungen aber der innehabenden Person dieser Benutzerseite nicht gefallen, sei bitte nicht traurig oder verärgert, wenn sie rückgängig gemacht werden.
Wikipedia ist ein Wiki, sei mutig!