Benutzer:YMS/Suche

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Kleine Liste von (RegEx-)Suchen nach verbreiteten Fehlern, die in üblichen Typo- oder Formfehlerlisten nicht auftauchen.

Auch wenn in den einzelnen Abfragen versucht wird, häufige false positives auszublenden, gibt es in der Regel dennoch viele davon. Die Ergebnisse sind generell mit Sorgfalt abzuarbeiten.


Suche Typische Fehler Typische false positives Anmerkung


And-1
insource:"and" insource:/(\]\]('')?,? and | and ('')?\[\[)/ -insource:/\]\] and (band|friends|his |her |partners |the )/i

  • Titel, Zitate, Eigennamen
  • Kommentare mit englischen Quellpassagen
  • "Earl of X and Y"
  • "Prince and The Revolution"

Nur nach/vor Link, weil englische Titel und Namen häufig vorkommen, aber relativ selten teilverlinkt sind


And-1b
insource:/(\]\]('')?,? (a|e|en|i|ja|og|y) | (a|e|en|et|i|ja|og|y) ('')?\[\[)/

[1]

  • Titel, Zitate, Eigennamen
  • Kommentare mit fremdsprachigen Quellpassagen

Internationale Variante von And-1 - wesentlich schlechteres false-/true-positive-Verhältnis, häufig schwieriger zu beurteilen (tritt dafür aber auch deutlich seltener auf)


And-2
insource:" and " insource:/( and (das |dem |der |des |die |ihr|sein|und ))|( (er|es|ging|mit|vorbei|wird|sie|soll|und) and )/

  • "Der Preis ging and Karl"
  • "Karl and und Heinz"
  • "live and die"



And-3
insource:er insource:/autor=[^\|}]+Alex, er/

  • "autor=Alex, er Meier"

Kopierfehler (Ersetzung von "and" in vermeintlicher Autorenliste) Weitere, wie "Am, a", "Br, on", "Hern, ez"


Apostroph-1
insource:" s " insource:/\]\]['’]s /

  • Titel, Zitate

Nur nach Link weil da vergleichsweise oft falsch


Autor-1
insource:Twitter insource:/autor=Twitter/

  • "autor=Twitter, Instagram, Email, Facebook"

Kopierfehler (hauptsächlich) LA Times


Autor-1b
insource:Facebook insource:/autor=Facebook/

  • "autor=Facebook, Twitter, Show more sharing options, Facebook, Twitter"

Variante von Autor-1


Autor-1c
insource:"Font size" insource:/autor=Font size/

  • "autor=Font size Print E-mail Share"

Variante von Autor-1


Autor-2
"View Author Archive"

  • (Weblink) "View Author Archive, Email the Author, Follow on Twitter, Get author RSS feed"



Autor-3
insource:/autor=[0-9]/

  • "autor=08 10 2019 Um 16:05"
  • ("autor=3sat")



Autor-3b
insource:by insource:/autor=by /i

  • "autor=by Brian, Middle East Correspondent"



Badlinks-1
insource:/(actor|actress|album|artist|athlete|\(Australia|author|[ \(]band|Canada|city|company||[ \(]France|Kingdom|[ \(]label|magazine| man|\(Mexico|musician|newspaper| player|publisher|[ \(]song|state|States|[ \(]website)\)\|/ -insource:/ommons.+\)\|/

[2]

  • [[Variety (magazine)|Variety]]
  • Kommentare
  • "[[:en:Variety (magazine)|Variety]]"

Links, die beim Übersetzen übernommen wurden und so kein korrektes Lemma in der deutschen Wikipedia sind; siehe separate Tabelle mit einzelnen, häufigen (>= 5 ANR-Links) Badlinks ohne false positives und ohne aggressiven Ausschlussfilter


Datum-1
insource:/(Januar|Februar|März|April|Mai|Juni|Juli|August|September|Oktober|November|Dezember|((Jan|Feb|Mär|Apr|Mai|Jun|Jul|Aug|Sept?|Okt|Nov|Dez)\.)) [1-9][0-9][0-9][0-9][0-9]/

  • "SZ vom 12. Januar 20212"
  • Dateinamen

Praktisch immer nachzurecherchieren


Durchkopplung-1
insource:/[^-]-\]?\]?und /

[3]

  • "Finanz-und Steuerrecht"
  • "Finanz -und Steuerrecht"
  • Dateinamen, Weblinks

Sehr viele Titel - nicht ungeprüft korrigieren


Einheit-1
insource:"Kilometer" insource:/ ([Nn]ach|[Vv]on) (weiteren )?(etwa )?[0-9]+ Kilometer[ ,\.<]/

  • "Im Umkreis von 50 Kilometer"

Mit Vorsicht behandeln ([1], [2])


Einheit-2
insource:/([$€¥¢£]|EUR|USD|DM|Mark) ?[0-9]+([0-9,\.']+[0-9]+)?( Mio\.|Millionen\Mrd\.)? ?([$€¥¢£]|US|Dollar|Euro|EUR|Yen|Cent|Pfund|GBP|[Bb]ritisch|DM|Mark)/

[4]

  • "$ 4000 Dollar"
  • Weblinks



Einheit-3
insource:Pfund insource:/£ Pfund/

  • "4 £ Pfund"
  • Titel, Zitate

In diversen Variationen: £ Pfund, Pfund £, GBP Pfund, Pfund GBP, ...; dann mit Dollar, Mark, Euro, Yen, Meter, Zentimeter, ...


Grad-1
insource:"Grad" insource:/° ?Grad/

  • "Neigung von 30° Grad"
  • "Secondaria di II° Grado"[note 1]



Grad-1b
insource:Grad insource:/°C (\[\[)?Grad/

  • "15°C Grad"



Grad-2
insource:/[0-9]°[a-z]/i

Viele Titel - nicht ungeprüft korrigieren


Grad-2b
insource:/[0-9]°[a-z]/i -insource:/[0-9]°[NSEOW]/

  • "37°C"
  • Dateinamen

Simplifizierte Form von Grad-2 ohne (potentielle) Koordinaten


Grad-3
insource:C insource:/ºC/

  • "4 ºC"
  • Titel

Ordinal- statt Gradzeichen


Klammer-1
insource:/(([^\(]{2}[^-–\]'])|([^-–](\]\]|'')))\)([a-zäöü]{2})/i -insource:/\)(acet|ami|benz|bis\(|but|carb|chrom|cyclo|diaze|eth|gly|hexa|mangan|meth|naph|nona|ox|phen|phosph|phth|piper|prop|pyr|silan|sulf|xo)/

[5]

  • "Brian (* 24.12.)war ein Prophet"
  • "[[Brian (Prophet)Brian]]"

Viele Titel und Zitate - nicht ungeprüft korrigieren


Klammer-1b
insource:/\)(das|der|die|ist|hat|hatte|mit|sind|und|war|wird|wurde) /

  • "Brian (* 24.12.)war ein Prophet"
  • Dateinamen, Weblinks
  • "Wi(e)der"

Simplifizierte Form von Klammer-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate


Klammer-2
insource:/,\)/

  • "Dies und jenes (u.ä,)"
  • "Peter (Schmitt), Paul (Müller,) Mary (Meier)"
  • "Jeder Vektorraum hat (unter der Annahme, dass das Auswahlaxiom gilt,) mindestens eine Basis"



Leerzeichen-1
insource:"nbsp" insource:/(  [a-züöä'\[<]|[a-züöä'\]>,\.]  )/i

  • "ein  - besonders schönes -  Beispiel"
  • diverse Formatierungen

Anders als normale doppelte Leerzeichen ( ) im gerenderten Artikel als doppeltes Leerzeichen sichtbar


Leerzeichen-2
insource:nbsp insource:/&nbp/

[6]

  • "5&nbp;m"

und alle mögliche Varianten: insource:/&nbs[a-oq-z]/, nsp, nps, bsp, nnb


Million-1
insource:"Million" insource:/([02-9]|[0-9,]1) Million /

  • "12 Million Euro"
  • Titel

Es gibt auch (wenige) Treffer für "Milliarde" statt "Million" (darüber sind's dann hauptsächlich false positives); kombinierte Suche leider nicht möglich ohne Timeout auszulösen


Million-1b
insource:"Million" insource:/([02-9]|[0-9,]1) Million (\[\[)?(Aufruf|Bücher|[bB]ritisch|CHF|DM|Dollar|Ein|etwa|Euro|EUR|Exemplar|Fahrzeug|fast|Frank|für|GBP|Jahr|Kilo|km|Kopie|Kubik|kW|mal|Mal|Mark|Mensch|Passagier|Pfund|Tonne|US-Dollar|USD|[Vv]er|Zu)/

[7]

  • "12 Million Euro"
  • Titel

Statischere Version von Million-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate (hier eher keine Ergebnisse für "Milliarde" wie bei Million-1)


Plenk-1
insource:/[^.][^.]\. \.[^.][^.]/ -insource:/\. \.(jpg|net)/i

[8]

  • "S. ."
  • "Einfacher Satz oder Titel. ."
  • "Nachfolger wurde Brian II. ."
  • Dateinamen, Weblinks
  • "Verschiedene Kaliber, u.a. .44"
  • ".de ist die deutsche TLD"



Plenk-2
insource:/ [\.,][^\.][^\.]/ -insource:/ \.(jp|pdf|png|net|svg)/i

[9]

  • "Satzende ."
  • "Halbsatzende ,"
  • "1 .Januar"
  • ",falsche einfache Anführungszeichen‘" (statt ‚xyz‘)
  • Dateinamen
  • "margin: .5em"
  • "Kaliber .44"
  • "Die TLD ist .de"



Plenk-3
insource:/,\./

  • "Titel,. S. 4"
  • Dateinamen, Weblinks
  • ",..."

Das hat schon sehr viele false positives, aber andersrum (".,") ist es viel zu oft korrekt


Typo-1
insource:"in de" insource:/ [Ii]n de /

  • "Er stieg mit dem Verein in de zweite Liga auf"
  • Niederländisch, Dialekt
  • Titel
  • "In de Maizières Amtszeit"



Typo-2
"eine Professor"

  • "1983 erhielt er eine Professor"



Zero-1
insource:/ 0[a-df-oq-wyz][a-z]/

[10]

  • "0sten"
  • "0nline"
  • IDs, Weblinks, Dauern, Spurweiten, Hausnummern


Wie Badlinks-1, nur viel einfacher mit Mediawiki-Bordmitteln.

Link Korrekt
ABC News (Australia) ABC News (Australien)
Android (operating system) Android (Betriebssystem)
Elle (magazine) Elle (Zeitschrift)
Fortune (magazine) Fortune (Zeitschrift)
Idolator (website) Idolator
ITV (TV network) ITV (Fernsehsender)
Medium (website) Medium (Website)
Metro (British newspaper) Metro (Associated Newspapers Limited)
New York (magazine) New York (Zeitschrift)
Paste (magazine) Paste (Zeitschrift)
People (magazine) People (Zeitschrift)
Pitchfork (website) Pitchfork Media
PMC (company) Penske Media Corporation
Time (magazine) Time
Vanity Fair (magazine) Vanity Fair (Magazin)[note 5]
Variety (magazine) Variety
Vice (magazine) Vice (Magazin)
Vogue (magazine) Vogue (Zeitschrift)
Wired (magazine) Wired

Vermeidung von Timeouts

[Bearbeiten | Quelltext bearbeiten]

RegEx-Suchen sind ressourcenintensiv und münden oft in Timeouts. Ggf. hilft dann die mehrfache Ausführung der Suche, um unterschiedliche Ergebnisse zu bekommen, besser ist aber die situationsweise Einschränkung mittels Index-Filtersuchen, die die Anzahl der Ergebnisse stark erhöhen und teilweise die Timeouts sogar ganz vermeiden. Die Suchen oben sind wo möglich bereits mit solchen Filtern ausgestattet (z.B. wird einem RegEx-insource:/° ?Grad/ ein Volltext-Index-insource:Grad angehängt, um nur diejenigen Artikel auf das exakte Muster zu durchsuchen, die überhaupt ein "Grad" enthalten).

Bei einem RegEx der Form insource:/(actor|artist|...|website)\)\|/ gibt es keine einzelne entsprechende Indexsuche. Beim Abarbeiten der Liste lässt sich dann ggf. schrittweise erst ein insource:actor anhängen, dann ein insource:artist, usw. Bei einer Suche insource:/,\)/ kommt auch das nicht in Frage. Der Suchraum lässt sich dann mit einem oder mehreren willkürlichen Filtern eingrenzen. So findet etwa insource:zu ca. die Hälfte aller Artikel, -insource:zu entsprechend die andere Hälfte. Das lässt sich mit anderen häufigen Wörtern, oder auch mit Kategorien (z.B. incategory:Frau) etc. ergänzen.

RegEx-Erläuterungen

[Bearbeiten | Quelltext bearbeiten]
    • Kein "et" im ersten ersten Block ("]] et"), wegen "et al"
    • Ausschließen: Dinge wie "Nachrichtenwebsite" (statt "website"), "Rockband" (statt "band"), "Roman" (statt "business man"), "Western Australia"
    • Ausschließen: "Commonscat:X (y)|z"
    • Erlauben: HTML-Kommentare die mit "und" beginnen, Links die mit Bindestrich enden
    • Leerzeichen zwischen Symbol und Zahl je nach Sprache da oder weg
    • Dezimal- und Tausendertrennzeichen nur innerhalb von Zahlen
    • 2x keine öffnende Klammer = Klammer-Mindestlänge: sehr viele false positives ("wi(e)der", "gehör(t)en"; Hubble-Sequenzen; ...)
    • kein Bindestrich: korrekte Form "(Halb-)offen"
    • Link oder kursiv erlaubt: selbe korrekte Form, nur verlinkt oder formatiert
    • 2x Buchstabe = Suffix-Mindestlänge: praktisch keine true positives
    • Chemikalien ignorieren ("Dihydrogen(mono)oxid")
  1. Suche nach nbsp aus Performancegründen (wenn kein korrektes nbsp, dann wahrscheinlich auch kein falsches)
    • Trotz der Folgewörter case-sensitive, um "million" in englischen Texten weiter zu vermeiden
    • Erlauben weil oft verwendet und nur typografisch unschön: "...", ". ..."
    • Erlauben: " ...", " .NET", " .jpeg"
  2. Ignoriere e (1970er / 0em), p (400px), x (400x400px, Hex-Zahlen); gefolgt von Buchstabe, um IDs, Hausnummern, Seitenzahlen etc. zu verringern

Fehler-Anmerkungen

[Bearbeiten | Quelltext bearbeiten]
  1. hier korrekt: Ordinalzeichen º
  2. korrekt: ohne Buchstabe zusammen (4°), sonst mit Leerzeichen (4 °C)
  3. Verwendung bei geographischer Breite uneinheitlich, sowohl 4° N als auch 4°N in Gebrauch
  4. nur manchmal besser: (mit-)bestimmt
  5. Siehe auch Vanity Fair (englisches Magazin), das ist aber nicht die direkte Entsprechung von en:Vanity Fair (magazine)
Hinweis: Du darfst diese Seite editieren!
Ja, wirklich. Es ist schön, wenn jemand vorbeikommt und Fehler oder Links korrigiert und diese Seite verbessert. Sollten deine Änderungen aber der innehabenden Person dieser Benutzerseite nicht gefallen, sei bitte nicht traurig oder verärgert, wenn sie rückgängig gemacht werden.
Wikipedia ist ein Wiki, sei mutig!