Wikipedia Diskussion:Wiki ViewStats

aus Wikipedia, der freien Enzyklopädie
Wechseln zu: Navigation, Suche
Automatische Archivierung
Auf dieser Seite werden Abschnitte automatisch archiviert, die seit einem Tag mit dem Baustein {{Erledigt|1=~~~~}} versehen sind.
Archivübersicht Archiv

Archivübersicht

Wie wird ein Archiv angelegt?

Hinweis auf Diskussion bei den Bots-Anfragen[Bearbeiten]

Hallo. Das neue alte Tool hat mich auf eine Idee zum häufig diskutierten Thema „BKL Typ 1 vs. 2/3“ gebracht. Habe diesbezüglich eine Anfrage auf dieser Seite gestellt. Da es indirekt auch um Wiki ViewStats geht, wollte ich hier nochmal draufhinweisen. Vielleicht mag ja der ein oder andere mal vorbeischauen und seine Meinung zur Umsetzbarkeit des Vorschlags oder generell zum Vorschlag sagen. Es grüßt, --BlueCücü (Diskussion) 13:55, 27. Dez. 2013 (CET)

Hallo BlueCücü, danke für den Hinweis. Sollte sich ein Bedarf ergeben, stehe ich gerne zu Verfügung. Eine API für automatische Abfragen ist in der Betaphase. Grüße --Hedonil Disk 06:55, 2. Jan. 2014 (CET)
Sollten Beta-Tester gesucht werden, auch einfach pieps machen. --BlueCücü (Diskussion) 19:44, 2. Jan. 2014 (CET)

Weitere Wünsche[Bearbeiten]

Was ich persönlich sehr begrüßen würde und was sehr hilfreich wäre, wäre eine Top 1000-Statistik für jede Sprachversion, gerade auch für die kleinere Sprachen. Bisher gibt es offenbar ja nur eine Top 100.000 über alle Sprachen und man kann sich für einzelne Sprachversionen die darin enthaltene Seiten ausgeben lassen. In dieser Top 100.000-Liste sind aber kaum Treffer für kleinere Spachen enthalten.

Zum zweiten fände ich es schön, wenn im Laufe der Zeit noch die Statistiken rückwärts berechnet würden, Daten liegen ja schon seit 2008 vor.

Zum dritten wünsche ich mir für jede Sprachversion so etwas wie Top 1000 für jedes Jahr (nicht nur für einzelne Monate) und vor allem eine "All-time Top 1000" für jede einzelne Sprachversion.

Trotz dieser weiteren Wünsche: vielen Dank für dieses sehr interessante Tool!!! Darauf warte ich schon lange.

--Holder (Diskussion) 08:18, 29. Dez. 2013 (CET)

Da sind eine /Menge/ Wünsche zwinker . Die Sache mit den TOP 100.000 und den Nicht-Populären Sprachen ist natürlich evident. Um hier einen Überblick zu erhalten, werde ich im Hintergrund ein TOP 100.000-B-Liste anlegen. Den Link dazu werde ich Dir posten, dann können wir ja mal schauen, ob sich das Verhältnis der B's untereinander einigermaßen balanciert verhält, oder weitere Abstufungen notwendig sind.
Zum Thema Rückwärts: Es sind jetzt 4 Monate mit ~5 Mrd. Datensätzen verfügbar, das sind aktuell ~ 600 GB an Daten. Ich kann diese Daten aktuell weder sichern, noch wesentlich erweitern (Kapazität), ohne das System (erneut) zu schmelzen. Nach dem Umzug von Labs in das neue Rechenzentrum Eqiad (~1. Quartal 2014) sehen wir weiter.
TOP 1000 / 10.000 pro Jahr: YES! wird gemacht, sobald die Kapazitätsfrage geklärt ist.
Danke für Deine Vorschläge und Anmerkungen. Auch kritische sind jederzeit willkommen! Grüße --Hedonil Disk 06:31, 2. Jan. 2014 (CET)

grok.se vs. ViewStats[Bearbeiten]

Hallo Hedonil :-) Irgendwie gibt es bei den Aufrufszahlen Ungereimtheiten; beispielsweise wurde Angela Merkel in der deutschen Wikipedia im Dezember 2013 bei [grok.se] 88.680 Mal aufgerufen, bei [ViewStats] jedoch 92.246 Mal – eine Differenz von 3.566 Aufrufen. Man kann übrigens einen x-beliebigen Artikel aufrufen, es gibt (fast) immer Abweichungen von grok.se und ViewStats. Weißt du, wie dieses zu erklären ist? Viele Grüße und ein tolles neues Jahr 2014!:-) --Funky Man (Diskussion) 12:44, 7. Jan. 2014 (CET)

Hallo Funky Man, um den Vergleich mit stats.grok.se für die Anwender zu erleichtern, habe ich in der neuen Version die Zahlen des Vergleichzeitraums (latest30, Monat) gleich mit eingeblendet. Eine Vorschau auf die neue Version 3.0 am Beispiel Angela Merkel Dez. 2013 ist hier:
Wenn man mit der Maus über die grok.se-Summe hovert, erscheinen die einzelnen Werte. Dabei gilt jedoch zu berücksichtigen, dass 1.) stats.grok.se den aktuellen Tag grundsätzlich nicht bereit stellt/einbezieht, Wiki ViewStats hingegen schon und 2.) Im Januar 2014 die Zahlen für 02. - 04. Januar bei stats.grok.se fehlen.
Zunächst ein Blick auf auf die angeforderten URL-Varianten für SQL: like 'Angela%Merkel':
Angeforderte URL-Varianten (Sept. 2013 – Jan. 2014)
# id page Kommentar
1 3082 Angela_Merkel "reguläre" Syntax Wikipedia
2 1377238 Angela%20Merkel "%"-Kodierung des Leerzeichens nach RFC1738
3 60454609 Angela+merkel "+"-Kodierung des Leerzeichens, bspw. durch JavaScript
4 52521662 AngelaMerkel andere Suchvariante
5 1377255 Angela_Dorothea_Merkel andere Suchvariante
6 90797560 Angela_Merkel%26term%3DAngela_Merkel andere Suchvariante
7 33554917 Angela_Merkel:Angela_Merkel andere Suchvariante
8 43154025 Angela_Teflon_Merkel andere Suchvariante
Die ersten beiden Varianten gelten hier als "korrekt", d.h. sie führen bei direkter Eingabe zur Ausgabe einer Seite
Zur Evaluierung einiger Sachverhalte, u.a. des Jahres-Top-Listings von "Hypertext-Transfer-Protokoll" in einigen Tools, habe ich die Rohdaten von Dezember 2013 erneut eingeladen
Rohdaten dumps (2. Dez. 2013 00:00:13 – 23:00:01)
id project page hits size time
1151730 de Angela_Merkel 46 3694787 00:00:13
7923388 de Angela_Merkel 21 1441482 01:00:12
14455626 de Angela_Merkel 28 2187141 02:00:00
20821731 de Angela_Merkel 5 401375 03:00:06
27175095 de Angela_Merkel 12 887227 04:00:00
33388690 de Angela_Merkel 13 1210265 05:00:03
39656859 de Angela_Merkel 20 2016144 06:00:00
46089475 de Angela%20Merkel 1 20 07:00:00
46089496 de Angela_Merkel 32 2654256 07:00:00
52697493 de Angela_Merkel 100 9769927 08:00:07
59496987 de Angela_Merkel 71 6604645 09:00:02
66539847 de Angela_Merkel 113 10962820 10:00:00
73655377 de Angela_Merkel 97 7399674 11:00:00
80820810 de Angela_Merkel 93 8790012 12:00:00
88126920 de Angela_Merkel 93 8048029 13:00:14
95594684 de Angela_Merkel 105 10551734 14:00:10
103177736 de Angela_Merkel 105 10323225 15:00:00
110740918 de Angela_Merkel 121 10369727 16:00:00
118381557 de Angela_Merkel 107 7852984 17:00:03
125814208 de Angela_Merkel 95 7134259 18:00:00
133251471 de Angela_Merkel 123 9464893 19:00:02
140477415 de Angela_Merkel 125 10538154 20:00:13
147722280 de Angela_Merkel 125 9539745 21:00:08
154640312 de Angela_Merkel 90 6320488 22:00:12
161430397 de Angela_Merkel 63 4809328 23:00:01
1804
de Angela_Merkel 75 4027307 00:00:00 des Folgetags 3. Dezember
  • Es kamen an diesem Tag also nur die "korrekte" Wiki-Syntax Variante "Angela_Merkel", sowie die "%"-kodierte Variante vor.
  • In Wiki ViewStats wurde mit der Eingabe des Suchbegriffs "Angela Merkel", das Leerzeichen durch einen Unterstrich ersetzt und die Anzahl der "korrekten" Wiki-Syntax Variante "Angela_Merkel" ermittelt: = 1803 Treffer. Wiki ViewStats
  • stats.grok.se ermittelt für den gleichen Tag 1732 Treffer. stats.grok.se
  • Selbst wenn man die Periode verschiebt, d.h. 01:00 Uhr – 00:00 Uhr des Folgetages (was man machen kann) wären es 1832 Treffer.


stats.grok.se liegt mit seinen Zahlen regelmäßig rund 10% unter den Rohdatensummen der Dumps - selbst wenn nur "punktgenaue" Schreibvarianten gezählt werden. Warum das so ist, kann nur spekuliert werden. Die Datenquelle ist für alle Tools die gleiche. Vielleicht fällt das jetzt auf, weil es im Detail leicht vergleichbare Zahlen aus einer anderen Aufbereitung gibt. Grüße --Hedonil Disk 18:43, 7. Jan. 2014 (CET)
Die Frage wurde nach Wikipedia_Diskussion:Wiki_ViewStats kopiert

Relocate discussion[Bearbeiten]

I am an EN wikipedia user. At Benutzer_Diskussion:Hedonil#Old_data, I asked "Can you run view stats on the datafiles for En wikipedia that go back to 2007"?--TonyTheTiger (Diskussion) 09:54, 16. Jan. 2014 (CET)

Hi TonyTheTiger, I'm very sorry that I didn't respond to your question earlier. You've my apologies. But I pondered hard over it. Some figures:
  • the statistic dumps are available since december 2007, so let's say since 2008 (2008 - 2013 = 6 years)
  • It takes ~2 hours to import and aggregate the data of one day // 2 hours * 365 days * 6 years = 4380 hours = 182 days
  • One day consumes ~ 5GB of data // 5GB * 365 days * 6 years = 10,95 TB
So in theory this is doable, in the field (right now) it isn't. Tool labs is moving to a new datacenter in Asburn right now where there are plenty more resources available, but they are still limited. I intend to import the data back to 2013 to have a solid databasis for an anual comparison. But even for this I have to talk to the labs people (Coren). If the -still new- tool is gaining popularity and is wanted by the community it will grow. So let's see... ;) kind regards --Hedonil Disk 21:59, 4. Feb. 2014 (CET)
  • I am going to assume the 10.95 TB is not the limiting issue since I as an individual have 6TB on my desk right now (laptop with 2 1TB internal drives, and external HDs of 3TB, 750 GB and 500 GB— not to mention a 160 GB iPod). Any system doing something for all of WP is probably using a lot more hardware than I have lying around on my desk. Also if everything takes 5 GB per day now in 2007 things probably to 2 or 3 GB just because there were probably half as many pages to do. However, even if 10.95 TB is not an overestimate and the TB HD space is not the issue, 182 days is a long time. Again time for 2014 data is obviously higher than 2007 data because of a lot more pages, but it is still going to be 100 or more days. Well, In 2006 it took my iPod about 10 hours to restore 70 or 80 GB of music from my Windows XP laptop. Now, my iPod takes 5 minutes to restore about 110 GB of music from my Windows 8.1 laptop. Processing power will get much faster. In 5, years it will only take a day or two to do the whole archive. I'll look forward to that day.--TonyTheTiger (Diskussion) 05:49, 5. Feb. 2014 (CET)

Problem with '[Bearbeiten]

Apparently the ' character causes problems with your tool. Almost all pages have higher page views with ViewStats than with stats.grok.se. However, all the pages that I have checked that have the ' character such as en:Victoria's Secret Fashion Show have lower page views.--TonyTheTiger (Diskussion) 16:23, 30. Jan. 2014 (CET)

Hi TonyTheTiger, at first: you are right. Welcome to the world of url encoding variants!
Since v3 this tool speaks case-sensitive and list accurate every variant of requests. Since v4 there's a feature link below the graphs called "variants" that shows you all different variants that have been requested from the web-proxies.
Because %27 is admittedly a valid but no mandatory encoding for ' the results are not merged. Nowadays the majority of requests is a result of a link from a search engine like google or wikipedia search rather than a manual input, so the most requested variants will be in the right format. (few edge cases always remain). While other tools may follow redirects, sum up some results in the background or blanket substract a certain percentage, Wiki ViewStats will provide the data as is, not following redirects, not summing up something different in the background.
With the "variants" feature you can see all requests, including redirects with similar names (where valid "redirects" is another separate feature) and other minor variants, that will offer you more possibilities for a detailed analysis of the data. Right now a sum field is provided with this feature.
The difference with stats.grok.se is explainend in #grok.se_vs._ViewStats (in german). In a nutshell: Even if we share the same data basis (dumps), stats.grok.se is almost always ~10% lower than the dumps. But for your comfort I've added the stats.grok.se data for 30, 60, 90 days and monthly views via JavaScript, so that you can simply compare and assess.
This is the tool's current philosophy, but I'm always open for discussions ;) kind regards --Hedonil Disk 01:38, 5. Feb. 2014 (CET)
  • All I can say is that I believe stats.grok.se adds all variants but all redirects remain separate. I.e., Vincent van Gogh and Vincent Van Gogh and all other variants are summed up, but Van Gogh, which is a redirect does not count. Basically, it sounds like for apostrophes and likely a few other characters, you probably need to sum up all variants. I don't know how much coding it would take, but I think what we want is all variants summed up and redirects not (because redirects may have odd histories where they redirect to one thing over a certain time period and another over another time period).--TonyTheTiger (Diskussion) 06:17, 5. Feb. 2014 (CET)
  • Seeing the separate total for the redirects is an excellent feature.--TonyTheTiger (Diskussion) 06:22, 5. Feb. 2014 (CET)
  • I have just noticed that your tool is having a problem with variants. See this example which includes some redirects as variants. You have to figure that issue out before aggregating variants.--TonyTheTiger (Diskussion) 06:45, 5. Feb. 2014 (CET)
  • The Qnumber total across languages is also quite useful.--TonyTheTiger (Diskussion) 06:47, 5. Feb. 2014 (CET)

365 day button[Bearbeiten]

Why do some articles have 365 days of data and other don't. en:Michelle Obama has 365 days of history and en:Glenn Robinson III does not. Why is this?--TonyTheTiger (Diskussion) 09:17, 21. Feb. 2014 (CET)

Hi, data for some pages have been computed (TOP 1,000,000) back to 01-01-2013 while others have not yet ;) --Hedonil Disk 16:58, 23. Mär. 2014 (CET)

type parameter[Bearbeiten]

Can be added to the type parameter the value "main" (or something similar) that will filter only the NS:0? Thanks, --Andyrom75 (Diskussion) 13:54, 22. Feb. 2014 (CET)

Hi, I'll try to implement a clickable filter for that in the new version. --Hedonil Disk 16:59, 23. Mär. 2014 (CET)

merged dammit.lt stats on WMF vs ViewStats[Bearbeiten]

Congratulations with this awesome project! The UI looks very complete and is a beauty. I saw from the comparison with stats.grok.se that you take the numbers very seriously. Have you looked into extrapolating for missing data files? Sometimes one hourly file is missing in the input stream on the dump server, very occasionally even one or more full days, yeah it still happens :-( I also did some work here, and chose to extrapolate for daily/monthly aggregates. BTW the hourly data are still in the file, in a highly condensed format, I put a question mark for missing hours. See intro and data files. Erik Zachte (Diskussion) 01:03, 12. Mär. 2014 (CET)

I don't know if we should extrapolate data.--TonyTheTiger (Diskussion) 07:36, 12. Mär. 2014 (CET)
You'll end up with the wrong number, as it's an educated (or actually algorithmic) guess, but very likely less wrong than the total without extrapolation. Of course the issue should be taken care of at the data source primarily. Feeds should become more reliable. Erik Zachte (Diskussion) 12:36, 12. Mär. 2014 (CET)
Ohh, a compliment by the grandmaster himself.:D  Thanks! The automatic import process is waiting for the next dump in the row to be processed. With the migration to eqiad there are some delays right now, but eventually they appear in the queue.
Though I digged deep into the pagecount matter, I'm not at your expert level to interpolate missing data with adequate accuracy. I compute and present the data "as is" (right now there are enough potential pitfals to handle ;) ). Missing data like the outage (Jan, 5/6) will remain missing, but provided with a comment.
Thanks for your hints, I'll consider to integrate your interpolated data as additional information layer with links to your comments, so that the informed/professional observers can dig deeper into the analysis if they want to.
Regards. --Hedonil Disk 17:40, 23. Mär. 2014 (CET)
Well my interpolation is not rocket science really. I just notice when an hourly file is missing. Say 2 out 24 files are missing for some day then I do day total is 24/22 * actual count. Similar for monthly total. It would be advanced if I took into account density of traffic for a particular hour. (or even for that particular page for a particular hour ;-) )

reference added to wikistats portal[Bearbeiten]

I added a section for Wiki ViewStats on wikistats portal. Any comments, errors, important features I missed? (BTW link points to my own server where updated html and new search function are in beta, all of that should find its way to official portal soon) Erik Zachte (Diskussion) 01:14, 27. Mär. 2014 (CET)

Hi Erik, thanks for the links. Looks good to me. --Hedonil Disk 13:04, 17. Apr. 2014 (CEST)

Messed up stats for April[Bearbeiten]

2012–13 Michigan Wolverines men's basketball team view stats are showing only 1,211 for April so far. However, Wikidata: Q4628341 shows 10,092 which is more in line with http://stats.grok.se/en/201404/2012%E2%80%9313%20Michigan%20Wolverines%20men%27s%20basketball%20team which shows 11,065.--TonyTheTiger (Diskussion) 05:37, 10. Apr. 2014 (CEST)

Hi Tony, it's still the >'< thing.The variants list shows the available alternatives & counts. This only affects pages which have a ' in their title (as you know ;) ).But thanks for reminding, I'm working on a new version right now, maybe time to patch this. Hedonil Disk 19:28, 10. Apr. 2014 (CEST)

Access to aggregate database[Bearbeiten]

Is it possible to access the per article time series database, or at least, its dump? I've been converting Domas Mituzas' hourly page counts data to an article pageviews time series database for a couple of weeks now and I expect at least two more weeks before I finish the processing so getting its dump will surely save me some time. I have access to the tools lab and am currently studying your code to figure out differences in our counts. --Ianalis (Diskussion) 19:58, 10. Apr. 2014 (CEST)

After further reading of the code, I realized that there is no time series database and instead aggregates are computed on-the-fly from the raw page counts data if the result is not yet in the cache. Raw page counts (from Domas Mituzas) are aggregated based on the following:
* case-insensitive project title
* case-sensitive article title
* add page counts only if the returned size (fourth column) is greater than zero
Am I missing something? My computed page counts for the article Flood for Dec 2012 is 72075 but the viewstats count is 70557. I've manually verified that my computed page counts is correct based on the three rules above. --Ianalis (Diskussion) 11:43, 11. Apr. 2014 (CEST)
Hi Ianalis.
1. The rules you analyzed from the code are correct.
2. The pagecount data you can access in Wiki ViewStats consists of 3 "blocks"
# block period priority
1. calculated generically, full take of dumps September 1, 2013 – now() 1
2. calculated generically, selection of TOP 2,000,000 pages Jan 1, 2013 – Aug 31, 2013 2
3. cached data from stats.grok.se, stored if a single page is recalled > Dec, 2007 3
So, the pagecounts you are takling about: wikiviewstats:en:Flood is Dec 2012 = stats.grok data.
As I already stated, stats.grok.se is habitually ~10% lower than my calculations, and as can I see now, as yours, too. Maybe it's an effect of some interpolation, but it's also an expectable and constant systematic bias.
And as a an aside: This extended data was publicly available not until today (only in dev environment). Salute to your analyzing efforts :-) . Stay tuned!
--Hedonil Disk 15:28, 17. Apr. 2014 (CEST)
Thanks! It's good to know that what I'm doing is most likely correct. I'm also looking for pageviews per article per country. Is there a way to get these without accessing the raw squid logs, which I am not authorized to access? --Ianalis (Diskussion) 18:43, 24. Apr. 2014 (CEST)

Synching dates[Bearbeiten]

Are you ever going to convert the time so that it is from 0:00 to 23:59 (UTC) rather than from 23:00 to 22:59 (UTC)?--TonyTheTiger (Diskussion) 06:49, 18. Mai 2014 (CEST)

May 16[Bearbeiten]

May 16 data seems to have disappeared.--TonyTheTiger (Diskussion) 06:50, 18. Mai 2014 (CEST)

Hi TTT, yep May 16 crashed during nighlty aggregation. Just re-imported it. --Hedonil Disk 15:28, 28. Mai 2014 (CEST)

Thanks![Bearbeiten]

I just wanted to stop by and thank you, Hedonil, for doing a fantastic job developing this valuable tool. Thank you for your hard work! Prototime (Diskussion) 04:45, 26. Mai 2014 (CEST)

My pleasure! --Hedonil Disk 15:30, 28. Mai 2014 (CEST)

Summen der Mobile Wikipedia Einträge[Bearbeiten]

Sorry, hab' eben erst den Link auf diese Seite gesehen (https://bugzilla.wikimedia.org/show_bug.cgi?id=68047)

Aggregate lines from the pageview files for the mobile wikipedia (as described in https://bugzilla.wikimedia.org/show_bug.cgi?id=68046) are incorrectly linked to URIs:
Go to http://tools.wmflabs.org/wikiviewstats/?lang=meta&project=mw&page=meta
See the link on top "meta" point to http://meta.m.wikimedia.org/wiki/meta
This makes me think that the mobile version of the page "meta" alone in project "meta" is accessed 8 G times in the last month.
Maybe these aggregate lines should be treated differently and be exempt from the overall top individual pages?

--Joernhees (Diskussion) 20:30, 15. Jul. 2014 (CEST)

Problem with EditCounterGlobalOptIn.js[Bearbeiten]

Hi,
It's been two weeks now that I try to see more statistics about my contributions. I created meta:User:Simon Villeneuve/EditCounterGlobalOptIn.js with "any content", but it didn't seems to work.
Anybody can help me on that ?
Thank you in advance ! --Simon Villeneuve (Diskussion) 04:02, 27. Jul. 2014 (CEST)

New translation[Bearbeiten]

Hi, I've translated the interface to "Norsk bokmål" (language code "nb") at Translatewiki. Can you activate it? Danmichaelo (Diskussion) 11:02, 19. Aug. 2014 (CEST)

stats for new projects[Bearbeiten]

Is it possible to add some new projects to stats shown? I am particularly interested in the local wiki of our chapter - Wikimedia Russia, which site is located on WMF servers - ru.wikimedia.org. Stats.grok.se has no info for us and we hoped that we could get it here... Rubin16 (Diskussion) 07:27, 22. Aug. 2014 (CEST)

September 4, 2014[Bearbeiten]

there isnt any stats avaiable for the 4th was there a problem, is it fixable Gnangarra (Diskussion) 06:02, 5. Sep. 2014 (CEST)

Wikiviewstats bugreport[Bearbeiten]

Someone filed a bug for Wikiviewstats. Can anyone have a look at it? Here: bugzilla:61833. Thanks! Romaine (Diskussion) 18:51, 6. Sep. 2014 (CEST)