GuttenPlag Wiki
(Kategorien hinzufügen)
(→‎Gnuplot Skript: barcode_zeilen.gp: leicht verbesserte doku)
 
(20 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt)
Zeile 1: Zeile 1:
 
Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite. [[Datei:Barcode zeilen.png|center|Prozentuale Anzahl der Plagiatzeilen pro Seite]]
[[Datei:Platzhalter|right|300px]]
 
Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.
 
   
 
==Methode==
 
==Methode==
   
 
Die abgefragten [[PlagiatsKategorien]] sind:
 
Die abgefragten [[PlagiatsKategorien]] sind:
 
 
*BauernOpfer
 
*BauernOpfer
 
 
*VerschärftesBauernOpfer
 
*VerschärftesBauernOpfer
 
 
*HalbsatzFlickerei
 
*HalbsatzFlickerei
 
 
*KomplettPlagiat
 
*KomplettPlagiat
 
 
*ShakeAndPaste
 
*ShakeAndPaste
 
 
*StrukturPlagiat
 
*StrukturPlagiat
 
 
*UnbekannteQuelle
 
*UnbekannteQuelle
 
 
*Verschleierung
 
*Verschleierung
 
 
*ÜbersetzungsPlagiat
 
*ÜbersetzungsPlagiat
  +
 
Diese Kategorien wurden so abgefragt:
 
Diese Kategorien wurden so abgefragt:
   
[http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:$cat http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:]<Kategorie>
+
[http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=5&cmtitle=Kategorie:BauernOpfer http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:]
  +
 
Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den [[Zeilenanzahl/Rohdaten]] abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.
  +
  +
  +
==Methode2==
  +
  +
Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die [[Spezial:Nicht_kategorisierte_Seiten]] ran. Fragmente haben immer genau 1 Angabe zur [[PlagiatsKategorien|PlagiatsKategorie]]. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:
  +
  +
[http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20 http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20]
  +
  +
Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.
  +
  +
==Weitere Auswertungen==
  +
  +
Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf [[Benutzer Diskussion:User8|meiner Diskussionsseite]] hinterlassen.
  +
  +
== Gnuplot Skript: barcode_zeilen.gp ==
  +
  +
Die benutzten Zahlen findet man übrigens auf [http://pastebin.com/ucXkgfmh pastebin.com]. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).
  +
  +
<pre>
  +
--- snip ---
  +
  +
set term png size 500,300
  +
set out "out.png"
  +
  +
set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%"
  +
  +
unset key
  +
set xtics 0,50 out nomirror
  +
set mxtics 25
  +
  +
unset ytics
  +
set border 5
  +
set lmargin 0
  +
  +
set xlabel "\nStand: 27.03.2011 11:22 Uhr"
  +
# set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr"
   
  +
# plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
Aus den XML-Daten wurde dann die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Die Anzahl der Zeilen pro Seite wurde aus den [[../Rohdaten]] genommen.
 
  +
plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
  +
"<(awk '$5 == 1' prozente.list)" using 1:4 with impulses lc rgb "black",\
  +
"<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "red"
  +
# "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "black"
   
  +
--- snip ---
==Überschrift==
 
   
  +
$ gnuplot barcode_zeilen.gp
Dritter Artikelabschnitt. Vergiss nicht den Artikel in eine Kategorie einzuordnen, damit andere Benutzer ihn leichter finden können.
 
  +
$ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png
  +
</pre>
 
[[Kategorie:Daten]]
 
[[Kategorie:Daten]]
 
[[Kategorie:Skript]]
 
[[Kategorie:Skript]]
  +
[[Kategorie:Statistik]]

Aktuelle Version vom 30. März 2011, 09:07 Uhr

Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.

Prozentuale Anzahl der Plagiatzeilen pro Seite

Methode[]

Die abgefragten PlagiatsKategorien sind:

  • BauernOpfer
  • VerschärftesBauernOpfer
  • HalbsatzFlickerei
  • KomplettPlagiat
  • ShakeAndPaste
  • StrukturPlagiat
  • UnbekannteQuelle
  • Verschleierung
  • ÜbersetzungsPlagiat

Diese Kategorien wurden so abgefragt:

http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:

Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.


Methode2[]

Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:

http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20

Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.

Weitere Auswertungen[]

Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.

Gnuplot Skript: barcode_zeilen.gp[]

Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).

--- snip ---

set term png size 500,300
set out "out.png"

set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%"

unset key
set xtics 0,50 out nomirror
set mxtics 25

unset ytics
set border 5
set lmargin 0

set xlabel "\nStand: 27.03.2011 11:22 Uhr"
# set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr"

# plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\
	"<(awk '$5 ==  1' prozente.list)" using 1:4 with impulses lc rgb "black",\
	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "red"	
#	"<(awk '$5  >  1' prozente.list)" using 1:4 with impulses lc rgb "black"	

--- snip ---

$ gnuplot barcode_zeilen.gp
$ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png