Benutzer:Mathias Schindler/BrockhausWissen2004

aus Wikipedia, der freien Enzyklopädie
Zur Navigation springen Zur Suche springen

Analyse[Bearbeiten | Quelltext bearbeiten]

Vorwort[Bearbeiten | Quelltext bearbeiten]

Nach Auskunft der Firma BIFAB basiert die CD-ROM-Reihe Brockhaus Wissen 2004 auf dem Produkt "Der Brockhaus in Wort und Bild 2004" und damit nicht - wie in den Pressemitteilungen der Zeit anfangs behauptet, auf der Brockhaus-Enzyklopädie. Dies wurde am Tag nach dem ersten Verkaufstag in einer Korrektur der Pressemitteilungen klargestellt.

Umfang der 1. CD[Bearbeiten | Quelltext bearbeiten]

Die CD-ROM Brockhaus Wissen 2004 - 1. - Politik+Geschichte (Version 1.0) wird seit dem 27. Mai 2004 als Beilage der Wochenzeitung Die Zeit verkauft. Auf der CD-ROM befinden sich 423 MB an Daten, verteilt auf 52 Ordner und 549 Dateien. 270 MB Daten befinden sich im Ordner data. Die Ordner die_zeit (Audio-Files von Zeit-Artikeln), T-Online (T-Online-Zugangssoftware) und fonts belegen weitere 140 MB.

Installation[Bearbeiten | Quelltext bearbeiten]

Über Autostart wird dem User die Installation vorgeschlagen, nach deren Abschluß ein reboot erforderlich wird. Erst danach kann der Payload installiert werden. In der Programmoberfläche sind einzelne Module ladbar.

Artikelstamm[Bearbeiten | Quelltext bearbeiten]

Es ist bereits mit der ersten CD möglich, den kompletten Stamm der Artikel einzusehen. Die Software erlaubt das Exportieren von Listen von Suchergebnissen. Die Liste ist auf 32752 begrenzt. Die Suche nach a* im Titel, b*, c*... im Titel ergibt Überschneidungen: "Lucius D. Clay" wird sowohl bei l*, d* und c* gefunden. In der Liste gilt folgende Konvention:

  • [ - ]: Artikel nicht enthalten auf einer der 4 CDs
  • [ + ]: Artikel auf einer anderen CD enthalten
  • kein Flag: Artikel auf der CD enthalten

Alle 26 Teilabfragen addiert ergeben 214793 Einträge. Nach dem Aussortieren der doppelten Einträge bleiben 121461 Einträge.

T1: Artikelzahl vor dem Aussortieren der Doppler.
T2: Artikelzahl nach dem Aussortieren der Doppler. (Fehlende Zahlen für Sonderzeichen)
T3: Artikelzahl nach dem Aussortieren von [ - ].
T4: Artikelzahl nach dem Aussortieren von [ - ] und [ + ].
Buchstabe - T1 - T2	T3	T4
a	15588	7971	3761	823
b	12212	7768	3977	820
c	7173	4628	2110	508
d	15818	6736	2607	599
e	10349	5571	2342	398
f	8434	5049	2653	648
g	10307	5648	2983	569
h	9498	5491	2795	619
i	7826	3337	1325	223
j	4227	2356	709	244
k	11063	6886	3346	767
l	8132	4783	2400	460
m	12215	7344	3443	762
n	6139	3447	1558	363
o	4504	2281	976	242
p	10201	6811	3307	604
q	599	483	177	20
r	7685	4723	2444	508
s	21657	12646	5959	996
t	7487	4793	2251	411
u	4888	1461	680	138
v	6521	3150	1719	274
w	7815	4161	1898	471
x	305	204	64	8
y	398	256	90	25
z	3624	1880	947	142

Qualitative Analyse[Bearbeiten | Quelltext bearbeiten]

Erster Testlauf[Bearbeiten | Quelltext bearbeiten]

Der erste Testlauf erfolgte mit einer Liste mit 11642 Einträgen, in denen jedoch noch nicht numerische lemmata enthalten waren und einige Doppler existierten, etwa:

7: ABC-Waffen: Diskussion um Ausrüstung der Bundeswehr mit Atomwaffen
8: ABC-Waffen: Massenvernichtungsmittel

Dazu wurden mittels perl 50 Pseudozufallszahlen gezogen, die dann die Zeilenzahl des Lemmas angaben:

perl -e 'for ($c=0;$c < 50; $c++){print int(rand(11642)), "\n"}'

Ausgabe: 649, 7791, 969, 3872, 8927, 5542, 8720, 8504, 144, 3005, 6340, 3084, 2643, 2974, 6883, 262, 3134, 9175, 5134, 8007, 5096, 95, 1722, 2531, 1702, 10380, 9043, 2092, 5285, 1572, 6240, 6638, 9144, 4921, 2713, 2289, 5030, 9397, 163, 4783, 4494, 4052, 9449, 10781, 9509, 3820, 8325, 2352, 483, 2844

Lemmata:

Begriff			Wörter	Zeichen
Assasinen			67	523
n.Chr.				5	38
Basileus			15	126
Gaviria Trujillo César		51	399
Revanchismus 			27	248
Kanem-Bornu			93	679
Rapacki Adam 			32	232
Predmosti			 37	289
Agartz Viktor			84	642
Erinnerungskultur		86	694
Le Duan			 121	876
Europa der Regionen		 91	664
Dschingis Khan			129	948
Equites			 33	221
Mark Geschichte		 130	952
Alexander I.			56	405
Eötvös József	 		75	575
römisches Alltagsleben		 5535	38841
Iran-Contra-Affäre		 92	708
Oströmisches Reich		 1046	7918
Interbrigaden			33 	271
Acton John...			 45	343
Carboniera			18	144
Docke Kulturgeschichte 		8	81
Märzfeld 			48	347
Titulatur			118	980
Roosevelt: New Deal		316	2482
Cox Patrick (Pat)		75	579
Jettatore			13	106
Burlak 				22	176
Lachmiden			28	211
Lusitania-Zwischenfall		68	495
Römische Frage 			49	360
Hungersnöte in Deutschland zur Zeit des Vormärz 356 2710
Dörpfeld Wilhelm		45	338	
Demokratische Partei Saar	 28	216
Imp.				6	52
Schlachtjahrzeit		35	301
Agrarkommunismus		92	804
Hitlers Machtübernahme		379	2902
Hartschier			18	152
Geßler Otto			48	332
Scholz Olaf			42	302
Venturoni Guido		42	378
Schweizer Eidgenossenschaft	382	2844
Gall Lothar			48	373
Phan Van Khai			46	349
Deutschbalten			106	843
Antigonos I. Monophthalmos	35	260
Eisenzeit			505	4007

Statistische Ergebnisse[Bearbeiten | Quelltext bearbeiten]

		Wörter		Zeichen
Durchschnitt	217		1594
Median		49		376
MIN		5		38
MAX		5535		38841

Linksammlung[Bearbeiten | Quelltext bearbeiten]

  • 17.05.2004 - 12:53 Uhr - Brockhaus-Wissen zum Sammeln / Neu: DIE ZEIT legt CD-ROMs vier Wochen lang bei
  • 24.05.2004 - 13:19 Uhr - Umfangreiches Lexikonwissen auf der ZEIT-Homepage / DIE ZEIT und Brockhaus bauen ihre Kooperation aus
  • 26.05.2004 - 16:11 Uhr - Absolutes Novum: Der ZEIT liegt ab morgen Brockhaus Wissen 2004 auf CD-ROM bei

Personen[Bearbeiten | Quelltext bearbeiten]

  • Sandra Friedrich (Zeit Presse- und Öffentlichkeitsarbeit)
  • Iliane Weiß (Leitering Zeit Presse- und Öffentlichkeitsarbeit)
  • Stefanie Hauer (Marketingleiterin der Zeit)

Firmen[Bearbeiten | Quelltext bearbeiten]

Agentur DNS[Bearbeiten | Quelltext bearbeiten]

  • Pressekampagne für die Zeit (Reichweite 20 Millionen).

T-Online[Bearbeiten | Quelltext bearbeiten]

  • Kooperationspartner der Aktion