Wikipedia Diskussion:Wikyrill-o-mat

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen
Abkürzung: WD:KY

Auf dieser Seite werden Abschnitte ab Überschriftenebene 2 automatisch archiviert, die seit 7 Tagen mit dem Baustein {{Erledigt|1=--~~~~}} versehen sind.
Vorlage:Autoarchiv-Erledigt/Wartung/Festes_Ziel

Hey,

ich find das Tool schon jetzt recht brauchbar, ein paar Dinge sind mir aber aufgefallen:

  1. Umgang mit Apostroph: Im Weißrussisch-Modus wird аб’яднаных und аб'яднаных unterschiedlich transkribiert. Mit den Apostroph-Varianten sollte einheitlich umgegangen werden.
  2. wissenschaftliche Transliteration/Kopiervorlage: Bei den nicht-russischen Sprachen enthält die Kopiervorlage eine leere Transliterations-Vorlage ('''ab’jadnanыch''' ({{bgS|аб’яднаных}}, wiss. [[Transliteration]] ''{{lang|bg-Latn|}}''. Mir schiene es besser, sie nur angezeigt zu bekommen, wenn sie auch etwas enthält. Bei mehrzeiligem Input wird Zeile 1 normal outgeputtet, bei Zeile 2 bei nicht-russischen Sprachen nur die WP-Umschrift, ab Zeile 3 bei nicht russischen Sprachen gar nichts mehr.
  3. fremde Zeichen: бы wird im Ukrainisch-Modus zu bы transkribiert, das verräterische Zeichen also einfach original wieder zurückgegeben. Bug oder Feature? Ein Fehlerhinweis ("Input enthält ein Zeichen, das im Alphabet dieser Sprache nicht vorkommt.) wäre meiner Meinung nach besser.
  4. alte Varianten: Für irgendwann in der Zukunft fände ich es nett, wenn auch das Russische von vor der Reform unterstützt wäre, also auch Zeichen wie das ѣ aufgenommen sind.
  5. neues kasachisches Lateinalphabet: Die Diskussion muss man nicht hier führen, aber irgendwann vermutlich irgendwo anders. Jedenfalls scheint es da Konkurrenz für die bisherige Transkribiertradition zu geben.
  6. da die Usbeken auch heute noch die Kyrilliza nicht überwunden haben, wünsch ich mir, dass das Usbekische auch noch unterstützt wird.

Danke für die hier reingesteckte Energie, … «« Man77 »» (A) wie Autor 22:03, 2. Mär. 2018 (CET)[Beantworten]

Danke dir für das Feedback. Ich habe mir mal erlaubt die Punkte durchzunummerieren. Dazu:
  1. Ich seh es. Da sollte ja eher kein Apostroph rein. Der Fehler lässt sich schnell beheben.
  2. Die Transliteration habe ich jetzt mal sekundär prioriziert. Die wird aber auch noch ergänzt. Wenn ich mal Lust habe. Deswegen gibt es sie bisher nur für Russisch, aber da das Design unabhängig von der ausgewählten Sprache ist, ist auch bei den anderen das Feld für Transliteration drin. Das wäre eher ein Fall für Sebastian, wenn das raus sollte.
  3. Hmmm.. Eher Feature. Was nicht existiert, kann nicht transkribiert werden. So sollte man den Fehler recht schnell sehen. Aber ich schaue mal, ob sich da was machen lässt.
  4. Uh. Davon habe ich mal gaaar keine Ahnung. Ist der Bedarf da so groß?
  5. Ja. Wir haben ja schon mal darüber diskutiert. Aber erstmal möchte ich wirklich feste Regeln, weil sich bei Kasachisches Alphabet die Tabelle, das Bild und das Beispiel alle wiedersprechen. Und bis 2025 ist es noch hin.
  6. Ich habe überlegt, was man mit Usbekisch, Turkmenisch und Aserbaidschanisch machen kann. Ob es möglich ist, aus englischer Transkription automatisch generierte Vorschläge zu erstellen, wie es richtig sein könnte, was man dann anhand von Google ausprobiert. Könnte für Laien aber schwer verständlich sein und ist wohl auch nicht so leicht zu programmieren. Usbekisches Kyrillisch solte aber schnell zu machen sein.
Ich kümmer mich die Tage und warte auf weiteres Feedback. Danke. --Kenny McFly (Diskussion) 22:28, 2. Mär. 2018 (CET)[Beantworten]
Zu 2: Die nicht ausgegebenen Transliterationen seh ich auch nicht prioritär, die nicht ausgegebenen Kopiervorlagen ab Zeile 3 zumindest prioritärer.
Zu 4: Ich glaub nicht. Fänd es aber cool. Wenn dir mal richtig fad ist… … «« Man77 »» (A) wie Autor 23:01, 2. Mär. 2018 (CET)[Beantworten]
Ich weiß leider nicht so wirklich, was du meinst mit den drei Zeilen. Gibst du mir ne Beispielabfrage? --Kenny McFly (Diskussion) 23:07, 2. Mär. 2018 (CET)[Beantworten]
Kopier dir zB die (ganze) erste Strophe im Originaltext von hier und lass sie dir transkribieren.
Die Kopiervorlage ist zwar nicht für solche Beispiele gedacht, aber a) könnte man gleich mehrere Anwendungsfälle auf einmal durch den Automaten schicken wollen und b) funktionierts bei Russisch. … «« Man77 »» (A) wie Autor 00:09, 3. Mär. 2018 (CET)[Beantworten]

Ausgabeformate[Quelltext bearbeiten]

Nettes Tool, aber ich habe trotzdem einen Featurewunsch: es wäre höchst hilfreich, wenn das Tool per Skript genutzt werden könnte. Sprich, Eingabe über URL-Parameter und Ausgabe als JSON- und/oder XML-Format anstelle der HTML-Seite, so ähnlich wie man das zum Beispiel bei Petscan auch machen kann. Könnt Ihr so etwas in Erwägung ziehen? Danke und viele Grüße! —MisterSynergy (Diskussion) 23:51, 7. Jun. 2018 (CEST)[Beantworten]

Ich habe da wenig technische Ahnung von, werde mich aber mal drum kümmern (lassen). Tausend Dank für die Rückmeldung und LG, Kenny McFly (Diskussion) 01:12, 8. Jun. 2018 (CEST)[Beantworten]
Wikyrill-o-mat ist mit Javascript umgesetzt. Man kann mit Javascript auch eine REST-Schnittstelle bauen. Wenn ich mal wieder ein Wochenende frei habe, schaue ich mir das gern an. --Sebastian Wallroth (Diskussion) 07:56, 8. Jun. 2018 (CEST)[Beantworten]
Hallo MisterSynergy, ich habe gestern URL-Parameter und verschiedene Ausgabeformen eingebaut. Passt das so für Dich? --Sebastian Wallroth (Diskussion) 11:20, 7. Jan. 2019 (CET)[Beantworten]
Die URL-Parameter sind schonmal super, aber mit den Ausgabeformaten komme ich noch nicht klar. mode=text zeigt im Browser die blanke Transkription an, aber im Quelltext ist das normale HTML-Skript zu finden, ohne die Eingabe und ohne die Ausgabe; ich fürchte, beides wird browserseitig mit Javascript eingelesen und erzeugt. Mein Plan ist eigentlich, mit Python (oder was auch immer) eine Liste von Eingaben automatisiert von dem Tool transkribieren zu lassen; dazu müsste dann aber auch die Ausgabe den transkribierten Text enthalten (optimalerweise nichts anderes als den transkribierten Text, aber im Zweifel würde ich das auch aus einem Quelltext rausfummeln können). —MisterSynergy (Diskussion) 13:38, 7. Jan. 2019 (CET)[Beantworten]
Würde mich interessieren, wie Du das machst, MisterSynergy. Ich habe jedenfalls nichts dazu gefunden, wie man mit JavaScript eine Ausgabe so gestaltet, dass man es mit einem Webservice abfragen kann. Vielleicht auf die Konsole? Die "text"-Option werde ich wieder rausnehmen, weil sie ja nichts nutzt. --Sebastian Wallroth (Diskussion) 16:49, 7. Jan. 2019 (CET)[Beantworten]
Ich kenne mich mit Javascript nicht richtig aus, daher kann ich da nicht wirklich helfen. Normalerweise wird JS ja im Browser von einer JS-Engine ausgeführt, und das Ergebnis dann irgendwie weitergenutzt (z. B. im Browser dargestellt). Soweit ich das verstehe, wird auch hier die Transkription komplett clientseitig durchgeführt. In Python hab ich (glaub ich) leider keine JS-Engine, so dass ich mit dem HTML+JS-Skript selbst nichts anfangen kann.
Irgendwann habe ich mal gehört, dass man JS auch serverseitig irgendwie ausführen kann. Erfahrung oder Details dazu hab ich leider keine. Ob das hier eine realistische Möglichkeit ist, kann ich nicht sagen. Wenn dem so wäre, dann könntest Du mutmaßlich eine echte textbasierte Ausgabe machen. —MisterSynergy (Diskussion) 18:07, 7. Jan. 2019 (CET)[Beantworten]

Da Kenny dankenswerterweise Armenisch hinzugefügt hat, passt der Name des Tools nicht mehr. Ideen:

  1. Wikitranscripti-o-mat
  2. Wikitranscript-o-mat
  3. Wikitrans-o-mat
  4. Wikitranscriptioner
  5. Transcripti-o-mat
  6. Transcript-o-mat
  7. Transwikription
  8. Transwikripti-o-mat
  9. Transwikript-o-mat

Andere Vorschläge? --Sebastian Wallroth (Diskussion) 10:51, 8. Jun. 2018 (CEST)[Beantworten]

Ich denke mal drüber nach. Vielleicht kann man es ja trotzdem so lassen. --Kenny McFly (Diskussion) 10:53, 8. Jun. 2018 (CEST)[Beantworten]
Wenn noch für die anderen Sprachen die Transliteration folgt, würde alles mit "Transscript" den vollen Umfang des Programms ja erneut nicht wiedergeben und der nächste Namenswechsel stände an. Gruß Berihert ♦ (Disk.) 13:30, 8. Jun. 2018 (CEST)[Beantworten]
PS: Transomat würde wahrscheinlich ganz andere Interessenten auf die Seite locken. Stichwort Gender, Berihert ♦ (Disk.) 13:33, 8. Jun. 2018 (CEST)[Beantworten]
Made my day. xD --Kenny McFly (Diskussion) 13:34, 8. Jun. 2018 (CEST)[Beantworten]

Wissenschaftliche Transliteration von ь und ъ beim Russischen[Quelltext bearbeiten]

Keine Ahnung, ob es so wichtig ist, aber das Programm gibt für ь das stinknormale Apostroph-Tastatur-Ersatzzeichen ' [U+0027] aus, für ъ aber ʺ [U+02BA], was korrekt ist. Um diesem zu entsprechen, müsste für ь ein ʹ [U+02B9] ausgegeben werden. Gruß, --HГq 17:14, 30. Jun. 2018 (CEST)[Beantworten]

Ist geplant, das Tool auch auf die serbische Sprache auszudehnen, oder ist die Transkription vom serbischen kyrillisch mit einer anderen Sprache identisch so, dass man diese verwenden kann? --Mogelzahn (Diskussion) 16:04, 8. Sep. 2018 (CEST) PS: Ein klasse Tool, das mir schon häufig weitergeholfen hat.[Beantworten]

Okay. Ich werde mich kümmern. Kann aber noch nicht sagen, wann ich da Zeit finde. Vielleicht nach der WikiCon. Da gehen sowieso noch einige Schriften und Textunterstützung, die bisher erst bei Armenisch gegeben ist. Ist bisher mehrheitlich nur auf Namen ausgelegt. --Kenny McFly (Diskussion) 16:30, 8. Sep. 2018 (CEST)[Beantworten]
Eilt nicht, wollte nur nachfragen. Dass das Tool nur auf Namen ausgelegt ist, stört aus meiner Sicht nicht, weil Namen (und Ortsbezeichnungen) ja nunmal auch der Hauptanwendungsbereich sind. --Mogelzahn (Diskussion) 14:59, 10. Sep. 2018 (CEST)[Beantworten]

Ich bin mal über euer Schmuckstück gekommen.

  • An der Programmierung gefällt mir einiges nicht; dazu unten im Detail.
  • Die Doku (Vorderseite) ist fein; Lob!
  • Inhaltlich werden ich mich mittelfristig zu dem Gesamtkomplex erneut melden.

VG --PerfektesChaos 15:14, 8. Jan. 2019 (CET)[Beantworten]

Deklarationsfehler[Quelltext bearbeiten]

Jede Variable wird nur genau einmal in einer Einheit (function) mittels var deklariert (und zwar ganz oben, vor allem anderen).

  • Eine Wiederholung der Deklaration könnte schlimmstenfalls dazu führen, dass die vorangegangene Wertzuweisung ignoriert würde.
  • Gnädigerweise lässt übliches JS das zwar durchgehen; das muss aber nicht bei jedem Benutzer und Browser so sein.
  • In jedem Fall ist es falsch, Nonsens und überflüssig.
  • Ich zähle über 900 unerlaubte wiederholte var.

Nicht korrekt: Erneute Deklaration.

var transcription = transcription.replace(/Ու/g, "U");
var transcription = transcription.replace(/ու/g, "u");

Vielmehr wird einmalig zu Beginn der Funktion deklariert:

function transcribe (){
   // Auslesen des Originaltextes
   var source = document.getElementById("source").value;
   // Entfernen des Unicode Character 'COMBINING ACUTE ACCENT' (U+0301)
   source = source.replace(/\u0301/g, '');
   // Initialisierung der Transkription
   var t = source;
   // Initialisierung der Transliteration
   var transliteration = source;
   // Auslesen der Sprache
   var language = document.theForm.languageSelect.value;
   // Sprachabhängige Variablen
   var template, testedTranscription, transcriptionAlert;

Innerhalb des Bereichs switch (language) { dürfen dann keinerlei var mehr vorkommen.

Die recht häufige und markante transcription habe ich hier mal mit t abgekürzt und damit die Nutzlast in Netzwerk und für die Interpretation um rund 25 Kilobyte erleichtert. Von 72 kB insgesamt.

Verketten[Quelltext bearbeiten]

Statt (in hy):

var transcription = transcription.replace(/([ԱԵԷԸԻՈՕաեէըիուօ])ս([աեէըիոօև])/g, "$1ss$2"); // ս zwischen zwei Vokalen = ss
var transcription = transcription.replace(/Ու/g, "U");
var transcription = transcription.replace(/ու/g, "u");
var transcription = transcription.replace(/(\s|$)ե/g, "$1je"); // ե im Anlaut = je

Besser:

      t = t.replace(/([ԱԵԷԸԻՈՕաեէըիուօ])ս([աեէըիոօև])/g, "$1ss$2") // ս zwischen zwei Vokalen = ss
           .replace(/Ու/g, "U")
           .replace(/ու/g, "u")
           .replace(/(\s|$)ե/g, "$1je"); // ե im Anlaut = je

Statt immer ein neues Statement auszuführen und eine erneute Wertzuweisung zu fordern, die dann sowieso wieder weggeschmissen wird, wendet man einfach die nächste Aktion auf das Resultat der vorangegangenen Aktion (eine Zeichenkette) an.

  • Dann käme der Name transcription bei jeder Sprache wohl nur in einem einzigen Statement an genau zwei Stellen vor, und dann bräuchte man ihn auch nicht abzukürzen.
  • Würde ich allerdings trotzdem nicht so machen, sondern gemäß #Trennung von Programm und Daten völlig anders.

Trennung von Programm und Daten[Quelltext bearbeiten]

Zurzeit ist das ganze Wissen in jeder Einzelsprache in Statements hinterlegt.

  • So macht man das aber in dieser Größenordnung nicht.
  • Man baut eigentlich ein reines Datenobjekt, sieht dann in etwa so aus wie mit JSON, das dann für sämtliche Sprachen alle Regeln enthält, aber keine ausführbaren Anweisungen.
  • Dazu schreibt man einen prozeduralen Teil, der in die einzelnen Komponente (Objekte, Arrays) des Datenobjekts hineingreift, die jeweiligen Aktivitäten der sehr ähnlich gelagerten Fälle ausführt, und fertig.
  • Da die eigentlichen Aktivitäten für alle Einzelsprachen anscheinend fast überall identisch sind, hat man die Programmierung, also etwa die einer Fehlermeldung, nur ein einziges Mal zentral am Bein und die Sprachdefinitionen werden übersichtlicher. Will man den Algorithmus verbessern, braucht es das nur an einer einzigen Stelle und nicht für jede momentane und zukünftige Einzelsprache.
  • Beispielsweise würde man ein Array aufmachen, dessen Elemente lauter Arrays aus zwei Elementen sind, nämlich RegExp-Zeichenkette und Ersetzungs-Zeichenkette, und dann der Reihe nach die Sammlung aller Paarungen RegExp-Zeichenkette und Ersetzung durchgehen; ggf. noch mit einem optionalen booleschen nicht-g-Parameter.
  • Dann könnte man nebenbei auch das RegExp-Objekt spontan aus der RegExp-Zeichenkette generieren, und mit diesem dann die Ersetzung ausführen. Momentan müssen beim Laden der Seite für sämtliche Einzelsprachen alle RegExp-Objekte generiert werden, völlig egal, ob überhaupt und für welche Sprache das Formular ausgefüllt wird. Wer mit Vielfach-Nutzung des Formulars rechnet, könnte die RegExp-Zeichenkette bei allererster Nutzung durch das erzeugte RegExp-Objekt ersetzen und merkt das ja dann, wenn für dieselbe Einzelsprache eine erneute Aktion gefordert wird. Hieße voll optimiert: Booleschen Merker, ob für diese Einzelsprache bereits initialisiert wurde; falls nicht, dann einmalig alle RegExp-Zeichenketten dieser Einzelsprache durch RegExp-Objekte ersetzen. Oder anders ausgedrückt: Statt mit Schrägstrichen einfach mit Gänsefüßchen hinschreiben; in der Form wird es dann schneller beim Laden interpretiert.
/* Globale Vereinbarung */
var data = { hy: { replace: [
                      [ "([ԱԵԷԸԻՈՕաեէըիուօ])ս([աեէըիոօև])", "$1ss$2" ], // ս zwischen zwei Vokalen = ss
                      [ "Ու", "U" ],
                      [ "ու", "u" ],
                      [ "(\s|$)ե", "$1je" ] ], // ե im Anlaut = je
                   test: "ԱԲԳԴԵԶԷԸԹԺԻԼԽԾԿՀՁՂՃՄՅՆՇՈՉՊՋՌՍՎՏՐՑՒՓՔՕՖաբգդեզէըթժիլխծկհձղճմյնշոչպջռսվտրցւփքօֆև"
             },   // hy
             bg: { replace: [ /* ... */ ],
                   test: "..."
             }
           };

und

var t = data[ language ],
    e, i, n;
if ( typeof t  ===  "object" ) {
   n = t.replace.length;
   if ( ! t.init ) {
      data[ language ].init = true;
      data[ language ].test = new RegExp( "[" + t.test + " -,]",  "gi" );
      for ( i = 0;  i < n;  i++ ) {
         data[ language ].replace[ i ][ 0 ] = new RegExp( t.replace[ i ][ 0 ], "g" );
      }   // for i
   }
   for ( i = 0;  i < n;  i++ ) {
      e = t.replace[ i ];
      transcription = transcription.replace( e[ 0 ], e[ 1 ] );
   }
} else {
   // "Sprache " + language + " ist leider nicht bekannt!"
}

Datenschutz[Quelltext bearbeiten]

Es werden die nachstehenden Ressourcen eingebunden:

Damit hinterlässt momentan jeder (mindestens erstmalige) Aufruf dieser Seite Spuren auf drei Fremdservern.

  • Diese enthalten IP-Adresse, individuelles Browserprofil mit allen persönlichen Vorlieben, und die Seite wo das verwendet wurde.
  • Damit können Unbefugte Data-mining betreiben.

Um das zu vermeiden, unterhält die WMF auf selbst kontrolliertem Server ein eigenes CDN.

  • In toolforge:cdnjs müsste eigentlich alles drinstehn, was man so braucht.
  • Selbst wenn eine Fremdsoftware ein böswilliges Element wie etwa ein Zählpixel mit Kontaktierung irgendeines Weltkonzerns enthalten würde, wäre diese Version rekonstruierbar auf unserem Server hinterlegt, das könnte auch lange Zeit später nachgewiesen werden, und deshalb macht das ja wohl keiner.
  • Ich rate deshalb dringend zur Umstellung.

Ende des Postings; ggf. Diskussion dazu[Quelltext bearbeiten]

Vielen Dank für die Korrekturen! Ich werde das so umsetzen. --Sebastian Wallroth (Diskussion) 18:57, 8. Jan. 2019 (CET)[Beantworten]

Nachtrag: RegExp-Fehler[Quelltext bearbeiten]

Ich verbrachte den Sonntag mal ein wenig beim Quelltext-Lesen und fand RegExp, die etwas anderes bewirken als beabsichtigt.

  • Es geht um Konstrukte wie: /(\s|$)ե/
    • Hier steht in der Wirkung ein $ am Anfang.
    • case "hy": – 4 Gebilde dieser Art
    • case "ka": – 32 Gebilde
  • Das kann nie funktionieren.
    • $ ist das Ende der Zeichenkette, nicht der Anfang.
  • Gemeint ist vermutlich: /(^|\s)ե/
    • Das verstehen sehr alte Browser nicht, sollte aber klappen.
    • ^ ist der Beginn des gesamten Textes.
  • Bei case "kk": und case "ky": und case "ru": und case "tg": kommt es auch gelegentlich vor, aber da passt es, weil Ende.
  • Jedoch zu rigide ist etwa in ky und tg
    "ий$", "i" }, // й nach и am Wortende weg
    weil das nur am Ende der ganzen Zeichenkette wirkt, nicht aber wie versprochen am Wortende.
  • In allen diesen Fällen könnte man jedoch das syntaktische Element \b verwenden, weil das in JavaScript ganz allgemein für eine Wortbegrenzung steht. Das liefert keinen Inhalt $1 und steht für die Begrenzung eines Wortes zu Anfang der Zeichenkette, Ende der Zeichenkette, oder Whitespace oder Interpunktion davor oder dahinter.
    • Schlumpfige Browser würden zwar möglicherweise nicht einen exotischen Buchstaben direkt als Bestandteil eines Wortes erkennen, jedoch unbekannte Zeichen als solche auffassen und problemlos Leerzeichen, Interpretation und Enden der Zeichenkette zuordnen können.

VG --PerfektesChaos 23:07, 20. Jan. 2019 (CET)[Beantworten]

Ich möchte mich nur einmal bei Euch bedanken. Ohne dieses Tool könnte ich keine Artikel über sowjetische Filme schreiben, denn ich kann zwar die kyrillischen Buchstaben lesen, aber das ist auch schon fast alles. Also: Vielen Dank! --Berlinspaziergang (Ich liebe Regeln) 13:28, 22. Jan. 2019 (CET)[Beantworten]

Dem Dank möchte ich mich anschließen. Besonders schön finde ich auch, dass das Tool auch die wissenschaftliche Schreibweise erfasst, und darüber hinaus noch eine Vorlage erstellt. ◅ Sebastian Helm 🗨 11:25, 24. Okt. 2023 (CEST)[Beantworten]

transText, Vorlage, BETA und die Zukunft[Quelltext bearbeiten]

Ich hatte schon seit langer Zeit ähnliche Pläne und interessiert den Wikyrill-o-mat verfolgt.

Als Vorlage:transText gibt es nunmehr eine Basis-Version.

  • Das darunter liegende Modul:TransText ist für den globalen Einsatz konzipiert.
  • Prinzipiell soll von beliebiger Sprache/Schrift in beliebige Sprache/Schrift transferiert werden können, sofern die linguistischen Regeln trivial genug formalisierbar sind.
  • Eine Lösung per Lua-Untermodul für eine einzelne Regeldefinition erlaubt es jedem Wiki-Benutzer, ohne eine kleine Gruppe von GitHub-JS-Zugangsberechtigten selbst die Regeln zu verbessern und neue Beziehungen zu erstellen, zumal inWiki-Lua sicherheitstechnisch sehr viel weniger problematisch ist als eine externe JS-Lösung.

--PerfektesChaos 11:29, 28. Jan. 2019 (CET)[Beantworten]

Integration von BETA-Vorschlägen[Quelltext bearbeiten]

@Kenny McFly, Sebastian Wallroth: Die fachliche Arbeit der bisherigen Ersteller von Regeln soll gewürdigt und hier in der echten WP dokumentiert werden.

  • Deshalb sollten Untermodule jeweils von einem Hauptbeteiligten hier als Seite erstellt werden.
  • Der Status Quo aus JavaScript liegt zum Testen im BETA-dewiki vor.
  • Dortige TransText-Spielwiese zum Rumprobieren.
  • WP:BETA zu dieser Umgebung.

Ich bitte deshalb um entsprechende Unterstützung. --PerfektesChaos 11:29, 28. Jan. 2019 (CET)[Beantworten]

BETA-Migration[Quelltext bearbeiten]

Code/BETA Inhalt Status
hy armenisch rot→blau
Geor georgisch rot→blau

Procedere:

  1. Erste Zeile: Aktuelles Datum drüberschreiben
  2. CREDITS: – hinter User: jeweils die Nicks derjenigen eintragen, die das linguistisch-fachlich erarbeitet hatten.
  3. SOURCE: – URL kann vermutlich entfallen.
  4. LICENSE STATEMENT: – ziemlich sinnfrei in einer WMF-Umgebung; komplett löschen
  5. Ggf. auf BETA zwischenspeichern.
  6. Ggf. auf TransText-Spielwiese experimentieren.
  7. Unter gleichem Namen in der echten Wikipedia Seite anlegen; möglichst durch den inhaltlichen Urheber.
  8. In der Tabelle eins drüber aktualisiert sich damit der Status.
  9. Um den Rest kümmere ich mich dann schon. --PerfektesChaos 11:29, 28. Jan. 2019 (CET)[Beantworten]

Diskussion dazu[Quelltext bearbeiten]

Danke erstmal für deine Arbeit. Leider habe ich keine Ahnung mehr, was das alles ist und für Sebastian, mich und das Programm bedeutet und was ich jetzt machen muss. Könntest du mir da mal ne ausführliche Mail schreiben oder vielleicht auch telefonieren, wenn es schneller geht (Nummer auf Anfrage per Mail)? --Kenny McFly (Diskussion) 12:15, 28. Jan. 2019 (CET)[Beantworten]

Ich versuch’s mal.
  1. Auf der angegebenen Spielwiese mal etwas experimentieren, damit das Prinzip klar wird.
  2. Für jede der in der Tabelle unter BETA-Migration angegebenen Sprachen durch einen hierbei Hauptbeteiligten das „Procedere“ ausführen.
  3. Anschließend steht das von mir vorbereitete Modul hier, und ich kümmere mich um die Vernetzung.
LG --PerfektesChaos 12:36, 28. Jan. 2019 (CET)[Beantworten]

Die Sonderregeln für das Russische sind nicht korrekt umgesetzt. Bspw '-ого' wird als -ogo statt richtig -owo transkribiert, etc. -- Glückauf! Markscheider Disk 13:57, 5. Jun. 2019 (CEST)[Beantworten]

Das ist mir bekannt. Das Problem ist, dass das technisch nicht umsetzbar ist, denn много würde dann auch zu mnowo. Ich habe ein Infopopupfenster hierfür als Idee, das bei der Buchstabenkombi angezeigt wird. Ich muss mich eh mal wieder darum kümmern. Auch wegen der Implementierung, siehe PerfektesChaos oben. --Kenny McFly (Diskussion) 14:09, 5. Jun. 2019 (CEST)[Beantworten]

Hi Kenny McFly, ich hab hier eine russische Wortliste nach dem Muster eines rückläufigen Wörterbuchs gefunden, weiß aber nicht, wie vollständig es ist. Um sich der *möglichst oft* korrekten Ausgabe einer Umschrift anzunähern, scheint es mir eine überlegenswerte Idee zu sein, ого und его am Wortende standardmäßig als owo und (j)ewo zu transkribieren und hiervon eine definierte Ausnahmeliste zu erstellen, wo dann neben много auch die Wörter намного, ненамного, немного und премного draufkommen, умного aber nicht. Die Liste müsste man halt gewissenhaft erstellen, wobei es wünschenswert wäre, jemanden im Team zu haben, der besser Russisch kann als wir beide zusammen. … «« Man77 »» Alle Angaben ohne Gewehr. 21:08, 12. Dez. 2023 (CET)[Beantworten]

Das klingt ganz gut. Das könnte ich hinkriegen. Aber ja, dann müsste jemand mir eine Ausnahmeliste geben. --Kenneth Wehr (Diskussion) 21:39, 12. Dez. 2023 (CET)[Beantworten]
Ich fang hier mal mit einer Liste an. … «« Man77 »» Alle Angaben ohne Gewehr. 18:03, 17. Dez. 2023 (CET)[Beantworten]

ого am Wortende soll ogo sein: ого, лого, много, намного, немного, премного, ненамного, строго-настрого (strogo-nastrogo), отлого, дорого, недорого, убого, неубого, четвероного, усоного, треного, разлого, двурого, двуного, безрого, безного, босоного

(und weitere Zusammensetzungen mit -ного & -рого)

его am Wortende soll (j)ego sein: Диего, Сан-Диего, Саманьего (sind allesamt keine echten russischen Wörter, aber tauchen in Wortdatenbanken auf)

его im Wortinneren soll ausnahmsweise ewo sein: сегодня (und die Formen von сегодняшний)

ого/его soll in einer Wortverbindung owo/(j)ewo sein: какого-то, кого-то, чьего-то, чего-то (alle vorstehenden genauso bei -либо und bei -нибудь)

(bzw. generell wenn unmittelbar vor Bindestrich so behandeln, wie wenn am Wortende? Es gibt auch ein Биолого-почвенный институт)

zu klären: аналого, геолого, биолого, психолого, рого, задорого, растого, снего, Онего

(unterschiedliche Lautschrift-Funde für i.d.R. Zusammensetzungen mit -лого- (von der griechischen Wurzel); mir ist unklar, ob die uneinheitlich gehandhabt werden, oder ob die Quellen teils falsche Lautschriften (vermutlich automatisiert) stehen haben)

problematisch: Того1, полого2

1 
Nur wenn das Land gemeint ist; wenn das gemeint ist (und dann auch wenn am Satzanfang großgeschrieben) towo
2 
in Abhängigkeit davon, ob gebeugte Form von пологий oder von полый; man müsste eigentlich bei jedem Adjektiv, dessen Kurzform im Neutrum auf ого endet (pologo; und evtl. in der Form adverbial gebraucht wird), schauen, ob es auch ein wie ein Adjektiv gebeugtes Wort gibt, bei dem es eine gleichgeschriebene nicht-feminine Genitiv-Singular-Form gibt (polowo); Stand jetzt nur dieser Fund
Danke. Ich habe versucht das einzufügen, aber meine JavaScript-Kenntnisse sind leider zu begrenzt. @Sebastian Wallroth: Da musst du ran. --Kenneth Wehr (Diskussion) 18:20, 17. Dez. 2023 (CET)[Beantworten]
Auch danke. Da die Liste noch Work in progress ist, war es noch gar nicht meine Absicht, dich zum Handeln zu bringen. Um auszuschließen, dass du mein Geschreibsel falsch deutest: -ного, -рого und -лого hast du eh nicht in irgendeiner Weise zu Generalausnahmen gemacht? … «« Man77 »» Alle Angaben ohne Gewehr. 19:35, 17. Dez. 2023 (CET)[Beantworten]
Bisher noch nicht, @Man77. Wenn ich es mir so ansehe, sollte die Liste zunächst ausgebaut werden, bevor wir das Programm ändern. Was mir auffällt: Du gehst auf Kombinationen ein, die es meines Erachtens nicht in Namen gibt, wie геолого, биолого, психолого, снего, oder? --Sebastian Wallroth (Diskussion) 19:49, 17. Dez. 2023 (CET)[Beantworten]
Ich behaupte nicht, dass ich ungewöhnlich gute Russischkenntnisse habe :-)
геолого etc. tauchen offenbar in Wortverbindungen mit Bindestrich auf. снего wie mir scheint auch. Dass die vielleicht in Namen nicht auftauchen, ist in meinen Augen nicht wirklich ein Argument, weil das Tool nicht nur für Namen geschrieben wurde (?). Je nachdem, wie man чего-то etc. implementiert, sollte man diese Beispiele im Blick haben.
Jedenfalls finde ich Wörter in Datenbanken, bei denen ich nicht weiß, ob es sie gibt, ob es Eigennamen oder Abkürzungen sein sollen, und was das für diese Umsetzungsidee heißen sollte. Drum: Expertenwissen ist willkommen. … «« Man77 »» Alle Angaben ohne Gewehr. 19:41, 18. Dez. 2023 (CET)[Beantworten]
Ich habe mir erlaubt, mal nebenan im Wiktionary um Hilfe zu bitten. Mehr helfende Hände schaden sicher nicht. Grüße in die Runde --Brettchenweber (Diskussion) 20:20, 18. Dez. 2023 (CET)[Beantworten]

Georgische Eigentümlichkeiten[Quelltext bearbeiten]

PC hat es ja schon oben bei RegExp-Fehler angedeutet, dass da ein Fehler eingebastelt ist. Bei replace(/(\s|$)ა/g, " A") (und den 32 weiteren bis replace(/(\s|$)ჰ/g, " H") passiert nicht das, was vermutlich beabsichtigt wurde:

  • Bei Absatzbeginn und nach Satzende-Zeichen wird Großschreibung erwartet.

Tatsächlich ergibt sich folgendes Bild:

Georgisch (sinnfreier Text) Transskript
ჩემს ბილეთს ვერ ვპოულობ. ოთხმოცდაათი

. ოთხმოც? დათხუ! თმეტი .

ოთხმოცდახუთი ოთხმოცი1. ორმოცდაათი 1ორმოცდათხუთმეტი ორმოცდახუთი ორმოცი ოცდაათი ოცდათხუთმეტი სამოცდაათი სამოცდათხუთმეტი სამოცდახუთი სამოცი ოთხმო ცდაათი ოთხმოცდა თხუთმეტი ოთხმოცდახუთი ოთხმოცი ორმოცდაათი ორმოცდათხუთმეტი ორმოცდახუთი ორმოცი ოცდაათი ოცდათხუთმეტი სამოცდაათი სამოცდათხუთმეტი

სამოცდახუთი

სამოცი

Wikyrill-o-mat bietet an

tschems Bilets Wer Wpoulob. Otchmozdaati . Otchmoz? Datchu! Tmeti .

Otchmozdachuti Otchmozi1. Ormozdaati 1ormozdatchutmeti Ormozdachuti Ormozi Ozdaati Ozdatchutmeti Samozdaati Samozdatchutmeti Samozdachuti Samozi Otchmo Zdaati Otchmozda Tchutmeti Otchmozdachuti Otchmozi Ormozdaati Ormozdatchutmeti Ormozdachuti Ormozi Ozdaati Ozdatchutmeti Samozdaati Samozdatchutmeti

Samozdachuti

Samozi

korrekter wäre

Tschems bilets wer wpoulob. Otchmozdaati . Otchmoz? Datchu! Tmeti .

Otchmozdachuti otchmozi1. Ormozdaati 1ormozdatchutmeti ormozdachuti ormozi ozdaati ozdatchutmeti samozdaati samozdatchutmeti samozdachuti samozi otchmo zdaati otchmozda tchutmeti otchmozdachuti otchmozi ormozdaati ormozdatchutmeti ormozdachuti ormozi ozdaati ozdatchutmeti samozdaati samozdatchutmeti

samozdachuti

samozi

Bei der Anpassung habe ich replace(/(\s|$)ა/g, " A") durch replace(/([.!?:]\s*|^)ა/g, "$1A") und entsprechend die Anderen ersetzt. Ggf. konnte man an der Behandlung von Absätzen noch weiterarbeiten. --Klaus-Peter 10:54, 2. Dez. 2019 (CET)[Beantworten]

Russisch → Englisch[Quelltext bearbeiten]

Ist eine Russisch → Englisch Version des Programms verfügbar oder in Planung? --37.120.22.244 10:52, 27. Jan. 2020 (CET)[Beantworten]

Wofür brauchst Du das? Frag doch mal bei den Kollegen der en-wp. -- Glückauf! Markscheider Disk 11:33, 27. Jan. 2020 (CET)[Beantworten]
Die eierlegende Wollmilchsau wäre https://www.5goldig.de/Russische_Tastatur/translit-umkodieren.html Glückzu! --Klaus-Peter 12:06, 27. Jan. 2020 (CET)[Beantworten]
Unter anderem für Wikidata. --37.120.22.244 12:07, 27. Jan. 2020 (CET)[Beantworten]
Das experimentelle Schwester- oder Kind-System TransText kann sowas wohl; zumindest wenn eine ISO-Transkription gewählt wird, siehe dort das Moskva-Beispiel.
Die dort verlinkte Vorlage kann per WP:BETA unter Vorbehalt für ‎Russisch → Englisch genutzt werden, wenn „Englisch“ ISO 9 meinen soll.
VG --PerfektesChaos 12:32, 27. Jan. 2020 (CET)[Beantworten]

ой im Russischen bzw. Versalbuchstaben als Problem[Quelltext bearbeiten]

Der Text der Namenskonvention lässt keinen Anlass erkennen, dass ой als Endung wie in плохой anders gehandhabt werden soll am Anfang wie in Ойнихол (russifizierte Variante eines Eigennamens). Nach etwas Herumprobieren scheint mir das Tool auf Großbuchstaben allergisch zu reagieren, ойнихол bzw. ПЛОХОЙ liefern andere Ergebnisse. … «« Man77 »» Alle Angaben ohne Gewehr. 22:23, 21. Mai 2020 (CEST)[Beantworten]

PS: Das Problem besteht im Tadschikischen auch. … «« Man77 »» Alle Angaben ohne Gewehr. 22:33, 21. Mai 2020 (CEST)[Beantworten]
Wie soll das Tool denn auch erkennen, ob es nach einer Abkürzung gefragt wird oder ob es angeschrieben wird? In einer Abkürzung ist Е ja auch Je, wenn man in Majuskeln schreibt aber nicht. Die Frage ist ja eher, warum man meint nur mit Großbuchstaben arbeiten zu müssen. Das macht doch keiner. Das ist also kein Problem, zumindest keins des Tools. --Kenny McFly (Diskussion) 09:39, 25. Mai 2020 (CEST)[Beantworten]
Das mit der VERSALSCHREIBUNG war nur ein Zufallsfund, aber oben bei Айвазовский besteht (zumindest laut meiner Analyse des Symptoms) dasselbe Problem wie bei Ойнихол: Das й erkennt nicht, dass der davor stehende Buchstabe ein Vokal ist, wenn der angesprochene Vokal unglücklicherweise als Großbuchstabe daherkommt. Das ist in meinen Augen schon ein Problem und vermutetermaßen eins des Tools.
Zur Sache mit der Versalschreibung und Abkürzungen: Wieso soll man mit Großbuchstaben arbeiten zu müssen meinen? Frag das die, die sie nutzen :-) Wenn man sie aus einer Textquelle reinkopiert, macht man das meistens nicht böswillig, sondern gerade eben weil man das Original originalgetreu transkibiert haben möchte. Wie groß der Bedarf an diesem Spezialfall ist? Ich weiß es nicht. Aber man sollte vielleicht schon überlegen in einer zukünftigen Ausbaustufe zumindest einen Hinweis darauf einzublenden, dass die angebotene Transkription nicht die korrekte ist, wenn A oder B zutrifft.
Vom Allgemeinen zurück zum Speziellen: Das й ist zumindest im Russischen ein am Wortanfang extrem seltener Buchstabe. Ohne das jetzt genau zu belegen stelle ich die Behauptung auf, dass die Großbuchstabenkombi eines Vokals plus Й im Gros der Fälle darauf zurückzuführen ist, dass keine Abkürzung mit "selbstständigem" Й, sondern ein "normales" Wort in Versalschreibung oder eine Abkürzung mit Vokal plus й in Einheit vorliegt. … «« Man77 »» Alle Angaben ohne Gewehr. 14:00, 25. Mai 2020 (CEST)[Beantworten]

Anmerkung zur originalgetreuen Reproduktion eines Vorbilds:

  • Mag im Zusammenhang mit Inschriften interessant sein, oder fremde elektronische Dokumente liefern beim Copy&Paste nur Großbuchstaben.
  • Darstellen lässt sich das mit CSS optisch als Großbuchstaben selbst wenn wie üblich notiert. Beachte das „ß“, und probiere C&P dieses Textes.
  • Der Arbeitsprozess sieht ja so aus, dass man von irgendwo anders her ein Textfragment bezieht, dieses in ein Werkzeug hineinkopiert, und danach das Ergebnis in unseren Wiki-Artikel hineinkopiert.
  • Mit JavaScript und der Funktion .toLowerCase() könnte jeder Eingangstext in Kleinbuchstaben gewandelt werden. Geht dann allerdings auch beabsichtigte Großschreibung erster Buchstaben verloren.
    • Im Ergebnisartikel könnte das dann optisch wie vorstehend in Versalschrift gewandelt werden, oder es gäbe am Werkzeug einen kleinen Schalter, das Ergebnis nur in Großbuchstaben darzustellen – mit .toUpperCase() machbar für eine Inschrift. Und Wiki könnte das auch: МОСКВА.
  • Wiki kann übrigens auch eine »Versalschreibung« in gemischte Groß-Klein-Schreibung wandeln.

VG --PerfektesChaos 14:28, 25. Mai 2020 (CEST)[Beantworten]

Das Problem mit dem й ist jetzt im Russischen, Tadschikischen und Kirgisischen korrigiert. Bei der Sache mit der Versalschreibung überlege ich mal, ob Handlungsbedarf besteht und wie man das am besten macht. Danke an PerfektesChaos für die Anmerkung. --Kenny McFly (Diskussion) 15:43, 25. Mai 2020 (CEST)[Beantworten]

ё im Russischen[Quelltext bearbeiten]

Da die Punkte auf dem Buchstaben ё optional sind, kommt es zu irreführenden Transkriptionen, wenn sie in der Quelle weggelassen wurden. Das ist beispielsweise beim Namen Семён/Семен (Semjon/Semen) der Fall. Wäre es da nicht sinnvoll, zumindest für die häufigsten Verwendungen eine Mapping-Tabelle einzuführen? Ob „jo“ oder „je“ richtet sich ja im Wesentlichen nach der Silbenbetonung, die das Tool nicht automatisch erkennen kann. --Rodomonte (Diskussion) 09:25, 25. Mai 2020 (CEST)[Beantworten]

Was meinst du mit Mapping-Tabelle? --Kenny McFly (Diskussion) 09:36, 25. Mai 2020 (CEST)[Beantworten]
Eine Tabelle, in der die korrekten Transkriptionen direkt für ganze Wörter aufgeführt sind. Oder alternativ über einen Zwischenschritt „Семен“ → „Семён“ → „Semjon“. Sie kann natürlich nicht vollständig sein, aber gerade in diesem Fall ist das jetzige Ergebnis schon sehr irreführend (um nicht zu sagen unfreiwillig komisch). --Rodomonte (Diskussion) 09:39, 25. Mai 2020 (CEST)[Beantworten]
Ich hatte auch für andere Dinge mal so einen Zwischenschritt geplant, wo anhand einer Liste mögliche Eingabefehler erkannt werden und nachgefragt wird. Das ließe sich hier bestimmt ebenso machen wie bei der Frage nach Morphemgrenzen für die s-ss-Problematik (Nowosibirsk), das ego-ewo-Problem beim Genitiv oder bei der x-ks-Frage für griechischstämmige Namen, wobei letztere eigentlich schon derart programmiert ist, allerdings nur für Russisch und Kasachisch. Aber wie ich gerade unten geschrieben habe, ich kann nicht programmieren, weil dafür Sebastian zuständig ist und für Kleinigkeiten fehlt mir derzeit der Zugriff. --Kenny McFly (Diskussion) 09:56, 25. Mai 2020 (CEST)[Beantworten]

Zwischenstand[Quelltext bearbeiten]

Moin. Mittlerweile wurde seit bald anderthalb Jahren nichts mehr am Tool verbessert, was am mangelnden Austausch zwischen mir und Benutzer:Sebastian Wallroth liegen dürfte. Andererseits war ja auch die von Benutzer:PerfektesChaos vorgeschlagene Implementierung in ein Modul geplant, von der ich aber technisch nicht die geringste Ahnung habe.

Da meine Zugangsdaten nicht mehr akzeptiert werden, kann ich derzeit aber auch keine Änderungen am Programm vornehmen. Sebastian, weißt du da was? Hast du was verändert?

Ansonsten noch mal meinen größten Dank an euch, dass ihr das Programm weiterhin benutzt und auf Schwachstellen aufmerksam macht. Danke! --Kenny McFly (Diskussion) 09:48, 25. Mai 2020 (CEST)[Beantworten]

Die eigentlichen Module sind längst von mir geschrieben.
Es geht nur um die Würdigung der Arbeit und Intelligenz der kyrillischen Ersteller.
  • Es müsste nur das jeweilige von mir auf BETA vorbereitete Modul mit den für eine Transkription spezifischen Regeln durch einen Hauptbeteiligten hier im echten Wiki angelegt werden, damit es der korrekte Seitenersteller ist.
  • Unter #BETA-Migration steht, um welche ausstehenden Spezifikationen es sich handeln würde.
  • Und ein wenig Testen durch Fachleute wär nicht schlecht; ich kann nur von den Winkeln im Dreieck α, β, γ und aus der Physik die Dichte ρ und aus der allgemeinen Mathematik Σ – und р sowie с haben sich da halt draus entwickelt. Sprechen und verstehen kann ich es nicht.
Die hier bereits verfügbare Vorlage:transText ist längst einsatzfähig, kann bloß noch nicht so viele Umschriften wie BETA wegen sonst URV.
VG --PerfektesChaos 14:42, 25. Mai 2020 (CEST)[Beantworten]
Ah. Ich werde mich zeitnah darum kümmern. Die Seiten kopieren sollte ich ja wohl hinbekommen. Ich werde dann mal rumprobieren. Ansonsten melde ich mich bei Problemen. --Kenny McFly (Diskussion) 15:43, 25. Mai 2020 (CEST)[Beantworten]
@PerfektesChaos: Hat es einen Grund, dass es beispielsweise kk-Cyrl heißt, aber ru? Kann man das vereinheitlichen? --Kenny McFly (Diskussion) 16:06, 25. Mai 2020 (CEST)[Beantworten]
  1. Nachträgliche Ping-Korrekturen funktionieren nicht; aber ich lese ja sowieso mit.
  2. Ja, hat es.
    • Generell gilt für die Staaten am Südrand der verblichenen Sowjetunion bis rum in die Mongolei, dass sie aus historischen Gründen in mehreren Schriften notiert werden können.
      • Vor 1920 hatten viele Arabisch geschrieben; ältere Texte deshalb in xx-Arab zu erwarten.
      • Danach kam der Genosse Volkskommissar für Nationalitätenfragen, und spätestens dann schrieben die Überlebenden Kyrillisch; also in xx-Cyrl.
      • Nach 1990 orientierten sich manche Staaten westlich; teilweise gibt es ja konkrete Überlegungen, auf xx-Latn umzustellen.
      • Je nachdem aus welcher Periode ein Textfragment stammt kommen also mehrere Deklarationen in Frage.
    • Beim Russischen, anders als im Serbischen, gibt es nur ein einziges gebräuchliches Schriftsystem.
      • ru ist deshalb implizit ru-Cyrl.
      • Die Umschrift wird dann explizit ru-Latn – ist jedoch für diese Sprache keine gebräuchliche Notation.
      • Wir schreiben ja auch an de oder en nicht überall de-Latn oder en-Latn dran.
  3. Nein.
VG --PerfektesChaos 16:26, 25. Mai 2020 (CEST)[Beantworten]
Ich habe die Seiten jetzt mit der aktuellen Version erstellt, außer Armenisch und Georgisch, weil du die bei Beta gelöscht hast. Es scheint auch zu funktionieren! °freu°. --Kenny McFly (Diskussion) 09:51, 26. Mai 2020 (CEST)[Beantworten]
  • Armenisch und Georgisch muss ich mir heute nacht mal in Ruhe angucken. Nach bald anderthalb Jahren weiß ich nicht mehr, was der Anlass für die Löschung gewesen war; vielleicht unvollständige oder inkonsistente Daten oder was.
  • „Es scheint auch zu funktionieren!“
    • Der geheime Plan ist es, die Web-Anwendung mit GitHub durch eine Lösung onwiki zu ersetzen; den gleichen Effekt auch hier innerhalb der allen Benutzern (Sichtern) zugänglichen Quellcodes zugänglich zu machen und langfristig hier zu pflegen.
    • Fremde Wikis können sich das kopieren; oder sie kommen auf unsere Spielwiese vorbei und generieren sich die Texte hier. Oder Commons unterhält eine globale Kopie oder was.
  • Betreffend der Versalien plane ich einen neuen Vorlagenparameter, Ausgabe in case=c|u|d meinend Ergebnis nur in kapitalisierten, großen oder kleinen Buchstaben, sofern das Schriftsystem solche Unterscheidungen kennen würde (Latn, Cyrl, Grek).
    • Beim Eingabetext kann ich erkennen, ob er nur Groß- (oder womöglich nur Klein-)buchstaben enthielte; in diesem Fall würde ich ihn kapitalisieren, damit die Erkennung von Vornamen greift. Wenn keine Umkäsung eingefordert würde, gäbe es ihn dann nach Transe in Versalien retour.
  • Ich blick nicht so ganz durch, wer hier richtiger Admin und wer SG-A ist, empfehle jedoch allen Lua-Codes (außer /Doku) edit=Dreiviertelschutz und move=sysop zu geben; so rein routinemäßig zum Schutz vor unbeobachtetem Vandalismus.
VG --PerfektesChaos 15:25, 26. Mai 2020 (CEST)[Beantworten]
Also die Webanwendung sollte auf jeden Fall bestehen bleiben. Man möchte ja nicht nur beim Editieren was transkribiert haben und Nichtwikipedianern wäre das ganze so gar nicht zugänglich, was aber durchaus so gedacht war. Ich habe aber kein Problem damit, beide zusammen zu pflegen.
Das mit den Versalien verstehe ich nicht. Das Problem ist ja, dass das Programm unmöglich erkennen kann, ob ein nur in Majuskeln geschriebenes Wort ein normales Wort ist oder eben eine Abkürzung. Und ein fiktives АСЕЧ wäre als Wort eben ASSETSCH, als Abkürzung aber ASJeTsch.
Das mit dem Schutz halte ich für richtig. --Kenny McFly (Diskussion) 15:39, 26. Mai 2020 (CEST)[Beantworten]
Ich denke in Jahrzehnten.
Zur Versalien-Jongliererei: ASJeTsch hat dann sowieso Pech.
  • Es geht aber um die durchaus häufige Situation, dass Buchtitel, Personennamen und Inschriften dem Anwender ausschließlich in Versalien vorliegen.
  • Die Programmlogik erkennt aber Vornamen nur kapitalisiert, und den Kram innendrin nur in Minuskeln.
  • Wenn der Input also nur in Versalien vorliegt und in Versalien kein Ergebnis geliefert werden kann, jedoch nach Wandlung in kapitalisiert, dann trans, dann das Ergebnis wieder in Versalien, dann liefert das glücklichere Resultate.
  • Aber es ist insofern richtig: Wenn der Input als Abkürzung nicht aber Akronym zu verstehen sein soll, dann wären nur die Versalien als Einzelbuchstaben zu ersetzen, nicht aber die Regeln für natürliche Wörter anzuwenden.
Nach etwa zwei oder drei Wochen vergesse ich jedoch sämtliche Einzelheiten einer Programmierung und brauche meist einen Monat, um mich wieder in mein eigenes Zeugs hineinzufinden.
VG --PerfektesChaos 15:55, 26. Mai 2020 (CEST)[Beantworten]
erledigtErledigt – Schutz der Module --Sebastian Wallroth (Diskussion) 07:50, 27. Mai 2020 (CEST)[Beantworten]
  • Georgisch und Armenisch
    • Ich habe mir das heute nacht genauer angesehen und finde keinen Grund, warum ich die eine gelöscht hätte; sieht funktionierend aus. Die andere hatte eine Sprache-Schrift-Verwechslung.
    • Ich habe die beiden BETA-Seiten wiederhergestellt und sie können nunmehr ebenfalls hier lizenzkonform etabliert werden.
    • Danach nochmal gründlich prüfen, vergleichen, ausprobieren.
  • Eure Website
    • Ich bin gerade am Tüfteln, wie sich das so vereinbaren lässt, dass keine doppelte Datenhaltung und Programmierung erforderlich ist.
    • Es gibt eigentlich einen ganz einfachen Weg: Man kann an die API von dewiki vom Web-Formular aus eine Vorlageneinbindung schicken, also einen Quelltext-Schnipsel; vermutlich besser als #invoke: einer besonders dazu geeigneten Modulfunktion denn als normale Vorlageneinbindung. Daraufhin antwortet die API mit der Transe, und die kann im Webformular angezeigt werden. Die Parameterversorgung (Eingabetext, Deklaration des Eingabekontextes, Deklaration des Ausgabekontextes, Steuerparameter wie Versalien oder „Buchstabenweise“) können dann im Web-Formular ausgewählt und in den Wikitext-Schnipsel eingefügt werden.
    • mw:API:Parsing wikitext/de und entsprechend API-Abruf mit Ergebnis als Vorlage müsste dann entsprechend anders aufbereitet werden (JSON im JSON).
    • Ich würde als Plattform eher zu WP:Technik/Cloud/Helferlein raten, denn eine private Domain zu unterhalten, wenn das schon grundlegend umgestrickt werden sollte.
  • Abkürzung aus Einzelbuchstaben
    • Ich denke zurzeit über einen Steuerparameter nach, der die Interpretation des Eingabewortes als Abkürzung aus Einzelbuchstaben deklariert und dann ohne die Komposition mehrerer Buchstaben zu beachten jeden Buchstaben für sich allein umschreibt.
VG --PerfektesChaos 12:25, 27. Mai 2020 (CEST)[Beantworten]
Müsste es gemäß Geor nicht auch Armn statt hy heißen? Oder geht es wie bei ru darum, dass auch hier keine andere Schrift benutzt wurde, im Gegensatz zu Geok beim Georgischen?
Du musst entschuldigen, dass ich von deinem mittleren Teil nichts verstanden habe. Ich hoffe, Sebastian schon.
Du hast ja die Syntax verbessert. Kann ich das so direkt auch für die Version bei GitHub bzw. der Website übernehmen? Wenn ich jetzt eine neue Schrift dazunehmen würde, dann würde ich mangels besseren Wissens versuchen einen Abschnitt aus dem Skript von Sebastian zu kopieren und die einzelnen Sachen ersetzen und dann wäre auch das wieder in einer Syntax, die du dann wohl für das Modul umschreiben müsstest. Deswegen wäre es natürlich schon gut, wenn beide Versionen dieselbe Syntax benutzen würden. Vielleicht wäre es praktischer, wenn du das Gesamtskript nochmal umschreibst, bevor ich da iwas zu raten und kopieren versuche und am Ende ist alles kaputt. --Kenny McFly (Diskussion) 12:51, 27. Mai 2020 (CEST)[Beantworten]
  • Zu Georgisch und Armenisch: Das müssten Fachleute ggf. näher entscheiden.
    • hy ist die armenische Sprache und übersetzt aus dieser Sprache in die Ziel-Transe.
    • Geor ist die georgische Schrift und übersetzt erstmal alles, was in dieser Schrift geschrieben wäre in die Ziel-Transe. Das ist dann eher ein Buchstabieren.
    • Der Unterschied wäre in einer anderen Situation augenfälliger:
      • Wenn ich aus der kyrillischen Schrift transe, dann stoppel ich nur universelle Buchstaben zusammen.
      • Wenn ich aus der russischen Sprache transe, dann beachte ich auch typisch russisches Zusammentreffen von Buchstaben unterschiedlich. Dabei kann ich „kyrillisch“ als Grundlage nehmen.
      • Wenn ich aus der ukrainischen Sprache transe, dann beachte ich auch typisch ukrainische Zusammentreffen von Buchstaben unterschiedlich. Dabei kann ich „kyrillisch“ wiederum als Grundlage nehmen.
  • Zur Programmierung: Die Idee ist es, nur eine einzige Definition der Daten und nur eine einzige Programmierung hier onwiki für jeden Sichter änderbar zu pflegen, und das Formular im Web fragt unser onwiki-Lua-Modul nach der Transe für etwas. Das Web-Formular liefert dann das komfortable Eingabeschema und erspart, sich mit unserer Vorlagensyntax auseinandersetzen zu müssen.
VG --PerfektesChaos 13:58, 27. Mai 2020 (CEST)[Beantworten]

Артур Гариевич Чёрный[Quelltext bearbeiten]

Spuckt bei Артур Гариевич Чёрный fälschlich Artur Garijewitsch Tschjorny anstelle von NKK-konformem Artur Garijewitsch Tschorny aus. --HГq 09:37, 19. Jan. 2021 (CET)[Beantworten]

Frage zur (Wikyrill-o-mat-)Transkription[Quelltext bearbeiten]

Bei Eingabe von Олексій Касьянов wird Oleksij Kasjanow ausgespuckt – hier zurzeit auch ein Artikellemma. Muss es nicht korrekterweise Oleksij Kassjanow heißen? Gruß, --HГq 00:23, 14. Feb. 2021 (CET)[Beantworten]

Ist behoben, das eins drüber ja auch schon seit zwei Wochen. Wie immer danke für die Rückmeldung. LG, Kenny McFly (Diskussion) 15:24, 14. Feb. 2021 (CET)[Beantworten]

Transkription aus dem Armenischen[Quelltext bearbeiten]

Beim Transkribieren des armenischen Namens „Թադևոս“ nach der Seite Armenisches Alphabet fiel mir auf, dass dabei entsprechend der Buchstabentabelle als Ergebnis „Tadeos“ herauskommt. Dabei ist nach der Fußnote 7 zum Buchstaben „ո“ zu beachten, dass nur am Wortanfang (Anlaut) dieser Buchstabe als „wo“ zu transkribieren ist, ansonsten im Wortinnern als „o“. Bei einer Suche in der deutschen Wikipedia fand sich aber nur die Schreibung „Tadewos“, die nach der oben genannte Seite falsch ist, nie aber „Tadeos“. (inzwischen geändert) Versuche in der englischen („Tadevos“), der russischen ( „Тадевос“) und einer ganzen Reihe anderer Wikipedias ergaben die gleichen Ergebnisse, obwohl in allen betrachteten Wikis die gleiche Anweisung wie in Fußnote 7 der deutschen Buchstabentabelle steht. Offensichtlich hält sich keiner an die zuständige Anweisung. Gleiche Ergebnisse gab es beim Wort „Գևորգ“, also „Geworg“ statt „Georg“.
Der heutige Test des Wikyll-o-mat ergab das gleiche Ergebnis: Auch hier kommen „Tadewos“ bzw. „Geworg“ raus. Wie soll man sich nun verhalten, wenn grundsätzlich eine nicht regelgerechte Schreibung weit verbreitet ist? Gruß --HeBB (Diskussion) 12:26, 9. Mär. 2021 (CET)[Beantworten]

Das ist offengesagt verwunderlich. Ich hätte jetzt geraten, dass kürzlich jemand erst diese Fußnote eingefügt hat, aber die war da schon, als ich das Tool auf Basis der Tabelle geschrieben habe. Zumal Georg und Tadeos ja auch viel naheliegender sind. Das müsste geändert werden. ――― Habe mal in den Quelltext geschaut und kann tatsächlich nicht mal sagen, wieso da überhaupt Geworg rauskommt, denn programmiert ist "wo" nur im Anlaut, sonst "o". Zu der weitreichenden Ignorierung einer Regel, siehe die Transkription von Исаак, die Issaak lauten muss, aber fast durchgehend Isaak ist. Da müsste man einfach mit einem Mal durchfegen und das richten, aber die Diskussionen will sich wohl keiner antun. --Kenny McFly (Diskussion) 13:02, 9. Mär. 2021 (CET)[Beantworten]
Das alles zu ändern ist eine Heidenarbeit, aber vielleicht geht das stückweise. Diskussionen gibts immer, bin ich ja gewohnt, aber solange es eindeutige Regeln gibt, verweise ich darauf. Zumindest zeigt deine Antwort, dass ich mit meiner Meinung nicht allein stehe, dass hier geändert werden sollte. Die Sache läßt sich in den Personenartikeln etwas entschärfen, indem man auf die fehlerhafte Schreibweise hinweist. Gruß --HeBB (Diskussion) 17:45, 9. Mär. 2021 (CET)[Beantworten]

Danke schön[Quelltext bearbeiten]

Das ist ein wirklich praktisches Helferlein, das ich gerne benutze und auch immer wieder weiterempfehle. Viele Grüße --Brettchenweber (Diskussion) 00:50, 5. Jan. 2022 (CET)[Beantworten]

Seite nicht erreichbar.[Quelltext bearbeiten]

Weiß jemand mehr? --Hemeier (Diskussion) 22:48, 31. Jan. 2022 (CET)[Beantworten]

@Sebastian Wallroth: Weißt du was? Ich bekomme ne Fehlermeldung wegen dem Sicherheitszertifikat. Wenn ich die Seite zum Bearbeiten der Website öffne, kriege ich eine ähnliche Warnmeldung, kann die aber umgehen, aber einloggen kann ich mich nicht, weil mein Passwort nicht akzeptiert wird und die Mail zum Passwort zurücksetzen kommt nicht an. --Kenny McFly (Diskussion) 23:41, 31. Jan. 2022 (CET)[Beantworten]
Hemeier und Kenny McFly. Danke für den Hinweis. Mein Server hat einen Hardwareschaden. Strato untersucht das bereits. --Sebastian Wallroth (Diskussion) 08:07, 1. Feb. 2022 (CET)[Beantworten]

@Sebastian Wallroth: Es gilt weiterhin, dass ich mich nicht einloggen kann und damit kann ich auch keine Fehler im Programm korrigieren. --Kenny McFly (Diskussion) 14:24, 1. Apr. 2022 (CEST)[Beantworten]

Transkription des russischen й nach Vokal[Quelltext bearbeiten]

Der Wikyrill-o-mat scheint sich hier nicht immer an die WP:NKK zu halten, siehe Diskussion:Sergei Iwanowitsch Menjailo. --Moebius0014 (Diskussion) 13:57, 28. Feb. 2022 (CET)[Beantworten]

Danke. Korrigiere ich zeitnah. --Kenny McFly (Diskussion) 14:56, 28. Feb. 2022 (CET)[Beantworten]

з im Ukrainischen[Quelltext bearbeiten]

Der wikyrillomat macht bei der Transliteration aus dem Ukrainischen aus Володимир Олександрович Зеленський korrekt Volodymyr Oleksandrovyč Zelensʹkyj, aber aus Георгий Васильевич Дзись Heorhyj Vasylʹevyč Dsysʹ (statt wie ich erwartet hatte Dzysʹ). Also generell wird der Kleinbuchstabe з als s ausgegeben (z. B. auch зелений als selenyj), korrekt wäre m. E. ein z, was beim Großbuchstaben korrekt gemacht wird. Ist das ein Programmierfehler oder hat das irgendeinen anderen Hintergrund? Danke, Grüße, Aspiriniks (Diskussion) 14:12, 1. Apr. 2022 (CEST)[Beantworten]

Das ist ein Programmierfehler, den ich korrigiere, sobald ich wieder Zugriff habe. --Kenny McFly (Diskussion) 14:26, 1. Apr. 2022 (CEST)[Beantworten]
OK, vielen Dank! -- Aspiriniks (Diskussion) 15:02, 1. Apr. 2022 (CEST)[Beantworten]
Müßte das schon funktionieren, oder wird das Update erst ab einem bestimmten Zeitpunkt wirksam? зуб wird noch als sub transliteriert. Danke, Grüße, Aspiriniks (Diskussion) 20:32, 1. Apr. 2022 (CEST)[Beantworten]
Das sollte funktionieren. Ich habe es mit Dsys ausprobiert. Lösch mal den Cache. --Kenny McFly (Diskussion) 20:55, 1. Apr. 2022 (CEST)[Beantworten]
OK, jetzt funktioniert es :-) Vielen Dank, Grüße, Aspiriniks (Diskussion) 21:16, 1. Apr. 2022 (CEST)[Beantworten]

Erstmal vielen Dank für das Tool, das ich häufig benutze. Eine Bitte: Könnte man der Seite anlässlich des Endes der Betaphase evtl. eine handliche Abkürzung in der Form WP:XX verpassen? Mir entfällt nämlich regelmäßig der genaue Name und so könnte man schneller hierherfinden. Wobei sich mir jetzt auch keine offensichtliche Abkürzung aufdrängt, vielleicht hat aber ja jemand eine Idee. --Icodense 12:11, 7. Aug. 2023 (CEST)[Beantworten]

WP:KY? --Kenneth Wehr (Diskussion) 12:17, 7. Aug. 2023 (CEST)[Beantworten]
Wäre gut, imho. --Icodense 12:22, 7. Aug. 2023 (CEST)[Beantworten]
+1 --Brettchenweber (Diskussion) 12:23, 7. Aug. 2023 (CEST)[Beantworten]

С zwischen Vokalen[Quelltext bearbeiten]

Der Artikel Michail Michailowitsch Kassjanow wurde 2010 mit Bezug auf diese Diskussion von Kasjanow nach Kassjanow verschoben. Der Wikyrill-o-mat gibt aber Kasjanow aus. Muss der Wikyrill-o-mat hier korrigiert werden oder sollte die Verschiebung rückgängiggemacht werden? --D3rT!m (Diskussion) 22:35, 25. Sep. 2023 (CEST)[Beantworten]

Auf die Kombination сья bin ich bisher noch nicht gestoßen. Aus Gründen ist ssja hier die logisch konsequente Transkription. Ich werde das die Tage korrigieren. Vielen Dank für die Aufmerksamkeit. --Kenneth Wehr (Diskussion) 23:22, 25. Sep. 2023 (CEST)[Beantworten]
Super, danke. --D3rT!m (Diskussion) 09:51, 26. Sep. 2023 (CEST)[Beantworten]

Fehler bei kirgisischer Transkription von йы[Quelltext bearbeiten]

Wenn ich йы kirgisisch transkribiere, erhalte ich als Ergebnis j$1. Da scheint also irgendwas nicht richtig zu funktionieren. --D3rT!m (Diskussion) 12:00, 11. Nov. 2023 (CET)[Beantworten]

Jap, da fehlten zwei Klammern im Code. Selbiges galt für Tadschikisch. Ist gefixt. --Kenneth Wehr (Diskussion) 12:15, 11. Nov. 2023 (CET)[Beantworten]
Das ging ja schnell. Danke. --D3rT!m (Diskussion) 12:17, 11. Nov. 2023 (CET)[Beantworten]

Hallo,

das Tool unterschlägt im Russischen bei der Zeichenfolge -ъе- (kürzestes Beispielwort: съел; richtig: sjel, falsch: sel) das hier erforderliche j. Regel hierzu laut Fußnote: "Nach russischen Vokalen, am Wortanfang und nach ь sowie ъ wird mit je … transkribiert". … «« Man77 »» Alle Angaben ohne Gewehr. 00:11, 9. Jan. 2024 (CET)[Beantworten]

Hmm ok, aber das versteh ich nicht. Wie kann das е nach einem Zeichen, das die Palatalisierung aufhebt, mit je ausgesprochen werden? Wie ist die IPA-Aussprache für сел, сьел und съел? --Kenneth Wehr (Diskussion) 07:27, 9. Jan. 2024 (CET)[Beantworten]
Ich fürchte, dass ich nicht der richtige bin, um zu deinen Fragen ein Referat zu halten :-)
Ich versuch es dennoch. Was IPA angeht, würde ich folgenden Tipp abgeben: сел sʲel, сьел sʲjel und съел sjel.
Zur Erklärung des Wie und Warum ist es in meinen Augen wichtig zu verstehen, wie das Zeichen heute verwendet wird, bzw. wieso es überhaupt noch verwendet wird. Es wurde ja 1918 "fast" abgeschafft, weil in den meisten Fällen das Fehlen von ь die Nichtpalatisierung hinreichend kennzeichnet. Nicht aber an Fugen zwischen Präfixen und Wortkern. Hier ist das ъ auch in der heutigen Rechtschreibung wichtig, um eben zu kennzeichnen, dass der Präfix nicht zu palatalisieren ist, der Anfang des Wortkerns aber wie am Wortbeginn (bzw. wie nach einem Vokal) auszusprechen ist. 1918 haben das manche erst bemerkt, als sie ihre ъ-Lettern schon weggeschmissen hatten.
Das ъ ist ahistorisch gesagt eher ein besonderer Bindestrich als ein reines Härtezeichen und damit nicht bloß ein Gegenstück zum ь (das generell eine Palatalisierung anzeigt). Das gilt nicht nur bei slawischen Präfixen wie с- oder об-, sondern auch bei Fremdwörtern mit bspw. lateinischem суб- oder griechischem пaн- vorne, vorausgesetzt, danach kommt ein jotierter Vokal.
Laut en:Hard sign gibt/gab es Stimmen für die Ersetzung von ъ durch ь. Ob das sinnvoll wäre, kann ich nicht beurteilen. So weit ich das recherchiert bekomme, werden *сьел und съел nicht identisch ausgesprochen (zumindest nicht in einer wie auch immer zu definierenden Standardvarietät der Hochsprache).
ъ als Teil der russischen Umschrift von arabischen oder ostasiatischen Wörtern bzw. von Klicklauten ist ein eigenes Thema, das hier nicht elaboriert werden muss.
LG, … «« Man77 »» Alle Angaben ohne Gewehr. 11:29, 9. Jan. 2024 (CET)[Beantworten]

Weißrussisch vs. Belarussisch[Quelltext bearbeiten]

In diesem Programm wird noch die Alte Sprachbezeichung benutzt.--Giftzwerg 88 (Diskussion) 19:03, 21. Jan. 2024 (CET)[Beantworten]