Benutzer:YMS/Suche
Kleine Liste von (RegEx-)Suchen nach verbreiteten Fehlern, die in üblichen Typo- oder Formfehlerlisten nicht auftauchen.
Auch wenn in den einzelnen Abfragen versucht wird, häufige false positives auszublenden, gibt es in der Regel dennoch viele davon. Die Ergebnisse sind generell mit Sorgfalt abzuarbeiten.
Suchen
[Bearbeiten | Quelltext bearbeiten]Suche | Typische Fehler | Typische false positives | Anmerkung
| |
---|---|---|---|---|
And-1 |
|
Nur nach/vor Link, weil englische Titel und Namen häufig vorkommen, aber relativ selten teilverlinkt sind
| ||
And-1b |
|
Internationale Variante von And-1 - wesentlich schlechteres false-/true-positive-Verhältnis, häufig schwieriger zu beurteilen (tritt dafür aber auch deutlich seltener auf)
| ||
And-2 |
|
|
| |
And-3 |
|
Kopierfehler (Ersetzung von "and" in vermeintlicher Autorenliste) Weitere, wie "Am, a", "Br, on", "Hern, ez"
| ||
Apostroph-1 |
|
|
Nur nach Link weil da vergleichsweise oft falsch
| |
Autor-1 |
|
Kopierfehler (hauptsächlich) LA Times
| ||
Autor-1b |
|
Variante von Autor-1
| ||
Autor-1c |
|
Variante von Autor-1
| ||
Autor-2 |
|
| ||
Autor-3 |
|
|
| |
Autor-3b |
|
| ||
Badlinks-1 |
|
|
Links, die beim Übersetzen übernommen wurden und so kein korrektes Lemma in der deutschen Wikipedia sind; siehe separate Tabelle mit einzelnen, häufigen (>= 5 ANR-Links) Badlinks ohne false positives und ohne aggressiven Ausschlussfilter
| |
Datum-1 |
|
|
Praktisch immer nachzurecherchieren
| |
Durchkopplung-1 |
|
|
Sehr viele Titel - nicht ungeprüft korrigieren
| |
Einheit-1 |
|
Mit Vorsicht behandeln ([1], [2])
| ||
Einheit-2 |
|
|
| |
Einheit-3 |
|
|
In diversen Variationen: £ Pfund, Pfund £, GBP Pfund, Pfund GBP, ...; dann mit Dollar, Mark, Euro, Yen, Meter, Zentimeter, ...
| |
Grad-1 |
|
| ||
Grad-1b |
|
| ||
Grad-2 |
|
|
Viele Titel - nicht ungeprüft korrigieren
| |
Grad-2b |
|
|
Simplifizierte Form von Grad-2 ohne (potentielle) Koordinaten
| |
Grad-3 |
|
|
Ordinal- statt Gradzeichen
| |
Klammer-1 |
|
|
Viele Titel und Zitate - nicht ungeprüft korrigieren
| |
Klammer-1b |
|
|
Simplifizierte Form von Klammer-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate
| |
Klammer-2 |
|
|
| |
Leerzeichen-1 |
|
|
Anders als normale doppelte Leerzeichen ( ) im gerenderten Artikel als doppeltes Leerzeichen sichtbar
| |
Leerzeichen-2 |
|
und alle mögliche Varianten: insource:/&nbs[a-oq-z]/, nsp, nps, bsp, nnb
| ||
Million-1 |
|
|
Es gibt auch (wenige) Treffer für "Milliarde" statt "Million" (darüber sind's dann hauptsächlich false positives); kombinierte Suche leider nicht möglich ohne Timeout auszulösen
| |
Million-1b |
|
|
Statischere Version von Million-1: viel weniger Ergebnisse, aber deutlich geringere False-positive-Rate (hier eher keine Ergebnisse für "Milliarde" wie bei Million-1)
| |
Plenk-1 |
|
|
| |
Plenk-2 |
|
|
| |
Plenk-3 |
|
|
Das hat schon sehr viele false positives, aber andersrum (".,") ist es viel zu oft korrekt
| |
Typo-1 |
|
|
| |
Typo-2 |
|
| ||
Zero-1 |
|
|
|
Bad Links
[Bearbeiten | Quelltext bearbeiten]Wie Badlinks-1
, nur viel einfacher mit Mediawiki-Bordmitteln.
Vermeidung von Timeouts
[Bearbeiten | Quelltext bearbeiten]RegEx-Suchen sind ressourcenintensiv und münden oft in Timeouts. Ggf. hilft dann die mehrfache Ausführung der Suche, um unterschiedliche Ergebnisse zu bekommen, besser ist aber die situationsweise Einschränkung mittels Index-Filtersuchen, die die Anzahl der Ergebnisse stark erhöhen und teilweise die Timeouts sogar ganz vermeiden.
Die Suchen oben sind wo möglich bereits mit solchen Filtern ausgestattet (z.B. wird einem RegEx-insource:/° ?Grad/
ein Volltext-Index-insource:Grad
angehängt, um nur diejenigen Artikel auf das exakte Muster zu durchsuchen, die überhaupt ein "Grad" enthalten).
Bei einem RegEx der Form insource:/(actor|artist|...|website)\)\|/
gibt es keine einzelne entsprechende Indexsuche. Beim Abarbeiten der Liste lässt sich dann ggf. schrittweise erst ein insource:actor
anhängen, dann ein insource:artist
, usw.
Bei einer Suche insource:/,\)/
kommt auch das nicht in Frage. Der Suchraum lässt sich dann mit einem oder mehreren willkürlichen Filtern eingrenzen. So findet etwa insource:zu
ca. die Hälfte aller Artikel, -insource:zu
entsprechend die andere Hälfte. Das lässt sich mit anderen häufigen Wörtern, oder auch mit Kategorien (z.B. incategory:Frau
) etc. ergänzen.
RegEx-Erläuterungen
[Bearbeiten | Quelltext bearbeiten]- ↑
- Kein "et" im ersten ersten Block ("]] et"), wegen "et al"
- ↑
- Ausschließen: Dinge wie "Nachrichtenwebsite" (statt "website"), "Rockband" (statt "band"), "Roman" (statt "business man"), "Western Australia"
- Ausschließen: "Commonscat:X (y)|z"
- ↑
- Erlauben: HTML-Kommentare die mit "und" beginnen, Links die mit Bindestrich enden
- ↑
- Leerzeichen zwischen Symbol und Zahl je nach Sprache da oder weg
- Dezimal- und Tausendertrennzeichen nur innerhalb von Zahlen
- ↑
- 2x keine öffnende Klammer = Klammer-Mindestlänge: sehr viele false positives ("wi(e)der", "gehör(t)en"; Hubble-Sequenzen; ...)
- kein Bindestrich: korrekte Form "(Halb-)offen"
- Link oder kursiv erlaubt: selbe korrekte Form, nur verlinkt oder formatiert
- 2x Buchstabe = Suffix-Mindestlänge: praktisch keine true positives
- Chemikalien ignorieren ("Dihydrogen(mono)oxid")
- ↑ Suche nach nbsp aus Performancegründen (wenn kein korrektes nbsp, dann wahrscheinlich auch kein falsches)
- ↑
- Trotz der Folgewörter case-sensitive, um "million" in englischen Texten weiter zu vermeiden
- ↑
- Erlauben weil oft verwendet und nur typografisch unschön: "...", ". ..."
- ↑
- Erlauben: " ...", " .NET", " .jpeg"
- ↑ Ignoriere e (1970er / 0em), p (400px), x (400x400px, Hex-Zahlen); gefolgt von Buchstabe, um IDs, Hausnummern, Seitenzahlen etc. zu verringern
Fehler-Anmerkungen
[Bearbeiten | Quelltext bearbeiten]- ↑ hier korrekt: Ordinalzeichen º
- ↑ korrekt: ohne Buchstabe zusammen (4°), sonst mit Leerzeichen (4 °C)
- ↑ Verwendung bei geographischer Breite uneinheitlich, sowohl 4° N als auch 4°N in Gebrauch
- ↑ nur manchmal besser: (mit-)bestimmt
- ↑ Siehe auch Vanity Fair (englisches Magazin), das ist aber nicht die direkte Entsprechung von en:Vanity Fair (magazine)
Siehe auch
[Bearbeiten | Quelltext bearbeiten]- Benutzer:Aka/Fehlerlisten - fertige Fehlerlisten, bekannte False Positives ausgeschlossen (daneben u.a. Hilfsprogramm)
- Weitere Fehlerlisten (siehe auch Wikipedia:Wartung): Wikipedia:Liste von Tippfehlern, Benutzer:APPER/ISBN, Spezial:LintErrors, Benutzer:Formatierer/potentielle Tippfehler
- Wikipedia:WikiProjekt Syntaxkorrektur, auch mit Skriptsammlung und extern generierten Listen
Wikipedia ist ein Wiki, sei mutig!