Zum Inhalt springen

Wikipedia:WikiProjekt KI und Wikipedia/Erkennung ungeprüfter KI-Einsatz

aus Wikipedia, der freien Enzyklopädie
Wegweiser
Diskussion
KI Cleanup
Instrumente zur QS
KI & Texte
KI & Übersetzung
KI & Medien
Handbuch
Interesse


Visual Editor

Hinweise auf ungeprüften KI-Einsatz

[Quelltext bearbeiten]
  • Der "Verdacht" entsteht oft durch Besonderheiten im Stil der Darstellung (siehe unten), wobei keins für sich allein ausreichen muss, den Verdacht zu erhärten.
  • Der Einsatz von Erkennungstools ist möglich, sie beruhen von allem auf der Erkennung solcher Dinge. Unabhängige Studien weisen aber auf hohe Fehlerraten hin, empfehlen z.B. den Einsatz mehrerer Tools. Als Beweis sollten sie nicht gelten.
  • Administrative Massnahmen erfordern einen Nachweis, keinen blossen Verdacht. Die nachfolgend dargestellten Erfahrungen zeigen, dass dies möglich ist.
  • Dabei reicht ein stichprobenartiger Nachweis, man muss nicht alle Texte und Quellen prüfen. Ist der Nachweis sicher genug erfolgt, muss man von einer ungeprüften und damit unsicheren Darstellung durch den Autor ausgehen.

Harte Regelverstösse, die hauptsächlich auffallen

[Quelltext bearbeiten]

Achtung, diese Fehler sind nicht neu, wurden auch früher gemacht.

  • Fehlender Beleg: KI-generierte Texte (Zusammenfassungen) ohne Belegangabe werden verwendet
    • WP:Belege sagt, dass jede Aussage grundsätzlich belegt sein muss. Einige Chatbots geben selten oder nur auf Nachfrage welche an oder verwenden Wikipedia aus anderen Sprachversionen.
  • Quellenfiktion: (wegen der Tendenz zu sog. Halluzinationen von KI)
    • Ein angegebener Beleg existiert so gar nicht bzw. ist frei erfunden (angegebene Links führen ins Leere, falsche ISBN)
    • In dem angegebenen Beleg steht nicht das drin, was zusammengefasst wurde
    • WP:Belege sagt grundsätzlich aus, dass man nur Quellen als Beleg verwenden darf, die man selbst lesen konnte - egal ob online oder offline. Hier besteht die "Verführung" der Autoren in einem (blinden) Vertrauen in die KI: Da es gut klingt, wird es schon stimmen.
  • Das Vorhandensein eines Bias (Verzerrungen) indem bei konkurrierenden Ansichten dieselben nicht entsprechend der Gewichtung im allgemeinen Meinungsspektrum dargestellt werden (z.B. überbewertete Einzelmeinungen) kann aus verschiedenen Gründen auftreten, kann nur von Autoren geprüft werden, die mit dem jeweiligen Thema ausreichend vertraut sind.

Weitere Erkennungsmerkmale (einzeln gesehen einige nur Indizien)

[Quelltext bearbeiten]

Diese sind vor allem Hinweise darauf, dass der Autor die Texte nicht selbst ausreichend vor Veröffentlichung geprüft und wikifiziert hat.

  • Zunahme der "Produktivität" – viele neue Artikel und Beiträge (vergleichbar zu früher, wenn schon längere Mitarbeit besteht)
  • sprachlich einwandfrei formulierte, aber gleichförmige Sätze (KI gibt auch bei genauem Prompting nicht immer enzyklopädische Texte aus).
  • Ausgedachte Schlagwörter (z.B. Alltagsbegriff/Fremdwort + Fachbereich/Fakultät o.ä. ohne spezielle Bedeutung und deshalb auch kein Fachbegriff) KI kann auch intern übersetzen und greift auf anderssprachige Texte in der Antwort mit Übersetzungsfehlern zurück.
  • Insbesondere ChatGPT hat einen erkennbaren „Sound“ und aufgrund seiner Vorgaben einen Stil, der von oft gekünstelt wirkender „Ausgewogenheit“ geprägt ist, aber wenig Inhalt enthält.
    • Ein Beispiel aus dem wegen starken ChatGPT-Verdachts gelöschten Artikel Basbousa: Die genaue Herkunft von Basbousa ist nicht eindeutig festgelegt, da es in verschiedenen Ländern des Nahen Ostens weit verbreitet ist. Das süße Gebäck ist in Ländern wie Ägypten, Jordanien, dem Libanon, Palästina und anderen arabischen Ländern beliebt. Basbousa ist ein fester Bestandteil der arabischen Küche und wird zu verschiedenen Anlässen serviert, wie zum Beispiel zu festlichen Feiertagen, Hochzeiten, Familienfeiern oder als Gastgeschenk. Es ist ein Symbol für Gastfreundschaft und wird oft mit einer Tasse Tee oder Kaffee genossen.
    • Eine für ChatGPT (mit Stand Ende 2023) ganz typische Formulierung ist „Es ist wichtig zu beachten, dass ...“, besonders bei potentiell umstrittenen Themen, die ChatGPT versucht, ausgewogen darzustellen. Sie findet sich oft zu Beginn des letzten Absatzes eines von ChatGPT generierten Texts. Dort neigt ChatGPT auch zu "besinnlichen" Schlussbetrachtungen wie Die Pest von Marseille 1720 bleibt ein dunkles Kapitel in der Geschichte der Stadt und der Menschheit. Sie erinnert uns daran, wie verheerend Epidemien sein können und wie wichtig es ist, angemessene Maßnahmen zur Bekämpfung und Prävention von Seuchen zu ergreifen. (aus Pest von Marseille (1720)).
    • Typisch für ChatGPT ist auch (Stand: Anfang Juni 2023) eine nummerierte Liste von plausibel wirkenden Fachartikeln, die aber nicht existieren.
    • Die GPT-4-Modelle bauen (Stand Juni 2025) Emojis oder andere Unicode-Symbole ein, die auf normalen Tastaturen nicht zu finden sind.
  • Einleitende oder abschließende Floskeln, die auf die Beantwortung eines Prompts hinweisen, wie „Gern. Hier ist eine ...“ bzw. „Ich hoffe, ich konnte helfen“ - die nicht entfernt wurden (also keine Kontrolle)
  • bei uns nicht vorhandene Infoboxen (offenbar für die englischsprachige WP generiert, die deutlich mehr haben - z.B. auch für Personen)
  • Erfundene Attribute in Infoboxen
  • falsche ISBN-Nummern (dann immer den Titel suchen, manchmal können auch die Verlage die falsch angegeben haben)
  • Für einen deutschsprachigen Wikipedia-Artikel unübliche Elemente (Sprachmodelle werden in der Regel auf englischsprachlichen Texten oder in mehreren Sprachen trainiert werden und Ausgaben teilweise übersetzt). Dieser Aspekt kann allerdings auch vorkommen, wenn ein Artikel aus einer anderen WP übersetzt wurde.
    • Nutzung von Vorlagen, die in der deutschsprachigen Wikipedia gar nicht oder nur aus Übersetzungsgründen (z. B. Vorlage:Cite web) existieren.
    • Andere Gliederung als die in der deutschsprachigen WP übliche bzw. andere Überschriftsnamen
  • Wenn man bei ChatGPT die Internet-Suchfunktion verwendet: Bei ihrer Gründung vertrat die EMFU etwa 180.000 Modellflieger und lud alle europäischen Modellflugverbände zur Mitgliedschaft ein. RC-Network.de+1ROTOR Magazin+1ROTOR Magazin+1RC-Network.de+1 Diese Satzenden treten auf, wenn man bei ChatGPT die Internet-Suchfunktion verwendet und den Text einfach so abkopiert.
  • Veraltete Informationen bzw. Internetquellen oder Weblinks, die schon zum Zeitpunkt des Einfügens in den Artikel nicht mehr erreichbar waren. Diese Informationen stammen möglicherweise aus dem „Gedächtnis“ eines Sprachmodells, das auch URLs umfasst (als mögliche Erklärung komplett halluzinierter Quellen, bei sehr genauer Recherche kann man die u.U. noch in Archiven finden)
  • Wenn im ref tag das name Attribut mit einem Text verwendet wird, z.B.<ref name=":Beispiel">, die Funktion Weiterverwenden verwendet Zahlen <ref name=":0">
  • Parameterfehler in der Vorlage Internetquelle
  • Weblinks in den Referenzen welche als Text dargestellt sind und nicht verlinkt sind
  • Wenn in den Weblinks "Source=ChatGPT" vorkommt (Hinweis: Es kann auch bedeuten das ChatGPT nur als Suchmaschine verwendet wurde)
  • Großer Erstedit, ohne Nachbearbeitungen des Artikelerstellers
  • AI Prompt (z.B. Fomuliere einen Artikel über XY)
  • Platzhalter (z.B. [Bitte füge XY hier ein]
  • Im Artikel ist [1] ohne Verlinkung zum Einzelnachweis vorhanden
  • Missbrauchsfilter 453 Wann immer eine Bearbeitung gemacht wird, die source=chatgpt.com enthält, schlägt er an, so einen UTM-Parameter hängt ChatGPT automatisch an Links.
    • Das Logbuch, wenn der anschlägt, sieht man hier. Man beachte „Details“ und „Überprüfen“ bei jedem Eintrag. Vorsicht: Mittels KI gefundene und ordnungsgemäß überprüfte Belege können auch im Filter landen, wenn der UTM-Parameter nicht entfernt wurde.


Hinweise auf von Menschen geschriebene Texte
  • Tippfehler sowie Fehler in Rechtschreibung und Grammatik lassen eher auf menschliche Autoren schliessen, da die KI üblicherweise formal korrekte Texte generiert.
  • Erwähnung von relativ unbekannten oder nur regional bekannten Personen, Organisationen, Verbänden oder Firmen, insbesondere wenn diese im Internet wenig präsent sind oder sich ihre Bekanntheit auf Deutschland beschränkt.
  • ... Weiteres, zu ergänzen ...

Es handelt sich hier um Hinweise eines Schwesterprojektes aus der englischsprachigen Wikipedia. Der Hinweis, dass bei ganzen von KI generierten Artikeln sichergestellt werden solle, "dass sie relevant sind", steht z.B. entgegen der hier teilweise vertretenen Position, solche Artikel grundsätzlich zu löschen.

  • Bearbeitungsempfehlungen (Auszug, Beispiele siehe dort, übersetzt):
    • Markiere Artikel, entferne Informationen ohne Quelle und warne Benutzer, die KI-generierte Inhalte ohne Quelle zu Artikeln hinzufügen.
    • Es ist oft schwierig zu erkennen, ob ein Text von einer KI oder von einem Menschen geschrieben wurde. In einigen Fällen finden sich Hinweise im Quelltext auf das verwendete Programm, wenn einfach kopiert wurde. Weitere Anzeichen sind das Vorhandensein von gefälschten Referenzen oder anderen offensichtlichen KI-Halluzinationen. KI-Inhalte nehmen manchmal einen Werbeton an und lesen sich wie eine Tourismus-Website. In anderen Fällen wird die KI verwirrt und schreibt über ein Hotel statt über ein nahe gelegenes Dorf. Automatische KI-Detektoren wie GPTZero sind unzuverlässig und sollten nur mit Vorsicht verwendet werden. Angesichts der hohen Rate an Fehlalarmen ist das Löschen oder Markieren von Inhalten, nur weil sie von einem automatischen KI-Detektor markiert wurden, nicht akzeptabel.
    • Wenn präzisere Informationen fehlen, beschreibt KI oft sehr allgemeine und gemeinsame Merkmale im Detail und lobt ein Dorf für sein fruchtbares Ackerland, Vieh und seine malerische Landschaft, obwohl es sich in einer trockenen Bergkette befindet. KI-Inhalte haben manchmal echte Quellen, die nichts mit dem Thema des Artikels zu tun haben, manchmal erstellt KI ihre eigenen gefälschten Quellen und manchmal verwenden sie legitime Quellen. Achte beim Entfernen von schlechten KI-Inhalten darauf, dass legitime Quellen nicht entfernt werden und überprüfe immer die zitierten Quellen auf Legitimität.
    • Manchmal werden ganze Artikel von KI generiert, und in einem solchen Fall stelle sicher, dass sie relevant sind. Gelegentlich haben es Hoaxes auf Wikipedia geschafft, weil KI-generierte Inhalte gefälschte Zitate geschaffen haben, die legitim erscheinen.

Dieser Text ist eine überarbeitete Auslagerung von hier