User8 (Diskussion | Beiträge) (Kategorien hinzufügen) |
User8 (Diskussion | Beiträge) (→Gnuplot Skript: barcode_zeilen.gp: leicht verbesserte doku) |
||
(20 dazwischenliegende Versionen von 2 Benutzern werden nicht angezeigt) | |||
Zeile 1: | Zeile 1: | ||
⚫ | |||
− | [[Datei:Platzhalter|right|300px]] |
||
⚫ | |||
==Methode== |
==Methode== |
||
Die abgefragten [[PlagiatsKategorien]] sind: |
Die abgefragten [[PlagiatsKategorien]] sind: |
||
− | |||
*BauernOpfer |
*BauernOpfer |
||
− | |||
*VerschärftesBauernOpfer |
*VerschärftesBauernOpfer |
||
− | |||
*HalbsatzFlickerei |
*HalbsatzFlickerei |
||
− | |||
*KomplettPlagiat |
*KomplettPlagiat |
||
− | |||
*ShakeAndPaste |
*ShakeAndPaste |
||
− | |||
*StrukturPlagiat |
*StrukturPlagiat |
||
− | |||
*UnbekannteQuelle |
*UnbekannteQuelle |
||
− | |||
*Verschleierung |
*Verschleierung |
||
− | |||
*ÜbersetzungsPlagiat |
*ÜbersetzungsPlagiat |
||
+ | |||
Diese Kategorien wurden so abgefragt: |
Diese Kategorien wurden so abgefragt: |
||
− | [http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit= |
+ | [http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=5&cmtitle=Kategorie:BauernOpfer http://de.guttenplag.wikia.com/api.php?action=query&format=xml&list=categorymembers&cmlimit=500&cmtitle=Kategorie:] |
+ | |||
⚫ | Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den [[Zeilenanzahl/Rohdaten]] abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden. |
||
+ | |||
+ | |||
+ | ==Methode2== |
||
+ | |||
+ | Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die [[Spezial:Nicht_kategorisierte_Seiten]] ran. Fragmente haben immer genau 1 Angabe zur [[PlagiatsKategorien|PlagiatsKategorie]]. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann: |
||
+ | |||
+ | [http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20 http://de.guttenplag.wikia.com/api.php?action=query&format=xmlfm&prop=revisions&rvprop=content&generator=allpages&gaplimit=5&gapprefix=Fragment%20] |
||
+ | |||
+ | Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1. |
||
+ | |||
+ | ==Weitere Auswertungen== |
||
+ | |||
+ | Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf [[Benutzer Diskussion:User8|meiner Diskussionsseite]] hinterlassen. |
||
+ | |||
+ | == Gnuplot Skript: barcode_zeilen.gp == |
||
+ | |||
+ | Die benutzten Zahlen findet man übrigens auf [http://pastebin.com/ucXkgfmh pastebin.com]. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.). |
||
+ | |||
+ | <pre> |
||
+ | --- snip --- |
||
+ | |||
+ | set term png size 500,300 |
||
+ | set out "out.png" |
||
+ | |||
+ | set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%" |
||
+ | |||
+ | unset key |
||
+ | set xtics 0,50 out nomirror |
||
+ | set mxtics 25 |
||
+ | |||
+ | unset ytics |
||
+ | set border 5 |
||
+ | set lmargin 0 |
||
+ | |||
+ | set xlabel "\nStand: 27.03.2011 11:22 Uhr" |
||
+ | # set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr" |
||
+ | # plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ |
||
⚫ | |||
+ | plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ |
||
+ | "<(awk '$5 == 1' prozente.list)" using 1:4 with impulses lc rgb "black",\ |
||
+ | "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "red" |
||
+ | # "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "black" |
||
+ | --- snip --- |
||
− | ==Überschrift== |
||
+ | $ gnuplot barcode_zeilen.gp |
||
− | Dritter Artikelabschnitt. Vergiss nicht den Artikel in eine Kategorie einzuordnen, damit andere Benutzer ihn leichter finden können. |
||
+ | $ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png |
||
+ | </pre> |
||
[[Kategorie:Daten]] |
[[Kategorie:Daten]] |
||
[[Kategorie:Skript]] |
[[Kategorie:Skript]] |
||
+ | [[Kategorie:Statistik]] |
Aktuelle Version vom 30. März 2011, 09:07 Uhr
Hier eine alternative Darstellung des Strichcode-Grafik. Sie zeigt den prozentualen Anteil der Plagiatzeilen pro Seite.
Methode[]
Die abgefragten PlagiatsKategorien sind:
- BauernOpfer
- VerschärftesBauernOpfer
- HalbsatzFlickerei
- KomplettPlagiat
- ShakeAndPaste
- StrukturPlagiat
- UnbekannteQuelle
- Verschleierung
- ÜbersetzungsPlagiat
Diese Kategorien wurden so abgefragt:
Aus den XML-Daten wurde die Anzahl der Plagiatzeilen pro Seite aufsummiert (ohne Doppelzählungen), dann die Prozente berechnet und geplottet. Zur Prozentrechnung wurde die Gesamtzahl der Zeilen pro Seite aus den Zeilenanzahl/Rohdaten abgeleitet. Die Breite der Grafik ist 475 Pixel, so dass 1 Seite genau 1 Pixel breit ist. XML-Abfragen und Erstellen der Grafik erfolgen per Skript und dauern nur wenige Sekunden.
Methode2[]
Man kann auch andere XML-Abfragen machen, z.B. den kompletten Inhalt aller Fragmente runterladen. So kommt man auch an die Spezial:Nicht_kategorisierte_Seiten ran. Fragmente haben immer genau 1 Angabe zur PlagiatsKategorie. Die Abfrage ist etwa wie folgt und muss im Batchbetrieb ablaufen, weil nur der Inhalt von max. 50 Seiten geladen werden kann:
Die weitere Bearbeitung erfolgt wie bei Methode 1. Der ganze Ablauf dauert ca. 1 Minute. Wie erwartet werden jetzt mehr Zeilen gefunden als bei Methode 1.
Weitere Auswertungen[]
Jetzt wo der Abfrageprozess automatisiert ist, könnte man auch weitere Auswertungen anstellen. Zum Beispiel: welche Zeilennummer wurde am häufigsten plagiiert: Zeile 14 (auf 218 verschiedenen Seiten). Falls jemand sinnvollere Ideen hat: dann bitte einen Kommentar zu dieser Seite posten, oder eine Nachricht auf meiner Diskussionsseite hinterlassen.
Gnuplot Skript: barcode_zeilen.gp[]
Die benutzten Zahlen findet man übrigens auf pastebin.com. (Bei pastebin.com ist es einfach nicht so mühsam mit plain text zu arbeiten.).
--- snip --- set term png size 500,300 set out "out.png" set title "1202 Fragmente, 132 Quellen auf 369 Seiten\n10298 Plagiatzeilen = 63.0%" unset key set xtics 0,50 out nomirror set mxtics 25 unset ytics set border 5 set lmargin 0 set xlabel "\nStand: 27.03.2011 11:22 Uhr" # set xlabel "Strichlänge: Prozent Plagiatzeilen pro Seite (0..100%)\nStand: 27.03.2011 11:22 Uhr" # plot [1:475][0:100] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ plot [1:475][0:1] "<(awk '$5 == -9' prozente.list)" using 1:(-2 * $4) with impulses lc rgb "#5CB5D5",\ "<(awk '$5 == 1' prozente.list)" using 1:4 with impulses lc rgb "black",\ "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "red" # "<(awk '$5 > 1' prozente.list)" using 1:4 with impulses lc rgb "black" --- snip --- $ gnuplot barcode_zeilen.gp $ convert -crop 475x300+0+0 -depth 8 out.png barcode_zeilen.png