Στατιστικά λέξεων

Από Κιθάρα wiki
Μετάβαση σε: πλοήγηση, αναζήτηση

Στατιστικά λέξεων στα τραγούδια του kithara.gr

Από τον Νέο Κιθαρωδό.


Είναι γνωστό σε όλους, ότι τα θέματα και οι εκφράσεις που εμφανίζονται στους στίχους των ελληνικών (και όχι μόνο) τραγουδιών, λίγο-πολύ επαναλαμβάνονται, πολλές φορές σε σημείο ώστε πολλοί στίχοι να θυμίζουν κολλάζ άλλων από προηγούμενα τραγούδια.

Με αφορμή αυτό το γεγονός, αλλά και απλά λόγω περιέργειας, ξεκίνησε αυτή η στατιστική. Σκοπός της ήταν να βρει ποιες είναι οι πιο συνηθισμένες λέξεις στους στίχους ελληνικών τραγουδιών της συλλογής του kithara.gr, που περιέχει ένα μεγάλο και σχετικά αντιπροσωπευτικό δείγμα στίχων του ελληνικού τραγουδιού.

Για όσους έφτασαν σε αυτή τη σελίδα από κάποιο link, χωρίς να περάσουν από την συλλογή, αναφέρουμε ότι περιέχει ένα ευρύ φάσμα στίχων από ελληνικά τραγούδια, ξεκινώντας από δημοτικά, παραδοσιακά, ρεμπέτικα και λαϊκά, και φτάνοντας στο ροκ και έντεχνο ελληνικό τραγούδι. Περιέχει σε μεγάλο ποσοστό γνωστά και αγαπημένα από το κοινό τραγούδια, και μπορείτε να την βρείτε εδώ..

Τα στατιστικά πάρθηκαν στις αρχές Οκτωβρίου του 2002. Η συλλογή περιείχε εκείνη τη στιγμή 4315 τραγούδια, οι στίχοι των οποίων πάρθηκαν υπόψη στα στατιστικά. Μετά την αφαίρεση των κενών γραμμών, υπήρχαν συνολικά 74498 γραμμές (στίχοι). Πρέπει να αναφέρουμε εδώ, ότι στα περισσότερα τραγούδια, επαναλαμβανόμενοι στίχοι και στροφές (π.χ. ρεφρέν) εμφανίζονται μόνο μια φορά.

Λέξεις ενός και δύο γραμμάτων αγνοήθηκαν κατά την συλλογή των στατιστικών. (Αν εξαιρέσουμε τα διάφορα άρθρα, μόρια, κλπ., στην ουσία αυτό αφορούσε τις λέξεις «γη» και «ζω»). Συνολικά, στους 74498 στίχους μετρήθηκαν 357225 λέξεις τριών γραμμάτων και άνω (πρόκειται για μη-μοναδικές λέξεις, που περιέχουν δηλ. επαναλήψεις).

Από τους προηγούμενους αριθμούς προκύπτει ότι κατά μέσο όρο υπάρχουν 17,3 στίχοι ανά τραγούδι και 4,80 λέξεις τριών και άνω γραμμάτων ανά στίχο.

Για περισσότερη ευκολία στην συλλογή των αποτελεσμάτων, λέξεις που εμφανίστηκαν κάτω από 12 φορές σε όλους τους στίχους, αφαιρέθηκαν από τα στατιστικά. Έτσι έμειναν συνολικά 287488 λέξεις (μαζί με τις επαναλήψεις), δηλαδή το 80% του συνόλου. Η αφαίρεση αυτή των λέξεων δεν επηρεάζει τα στατιστικά που εμφανίζονται παρακάτω, αφού οι λέξεις που κυριάρχησαν και εμφανίζονται στους παρακάτω πίνακες, έχουν πολύ περισσότερες από 12 εμφανίσεις.

Οι 287488 αυτές λέξεις ταξινομήθηκαν και μετρήθηκαν, και βρέθηκαν 3228 διαφορετικές λέξεις ή μορφές λέξεων (π.χ. οι λέξεις «αγαπώ», «αγαπάς» και «αγαπούσα» μετρήθηκαν για διαφορετικές).

Καθώς πολλές λέξεις εμφανίζονται σε διαφορετικές μορφές, όλα τα κλιτά μέρη του λόγου μετατράπηκαν ως εξής: - Ρήματα: πρώτο ενικό πρόσωπο του ενεστώτα - Ουσιαστικά: ονομαστική ενικού - Επίθετα, αντωνυμίες: ονομαστική ενικού, αρσενικό γένος Μετά από αυτή τη μετατροπή, οι λέξεις ταξινομήθηκαν και μετρήθηκαν πάλι, και βρέθηκαν 1541 μοναδικές διαφορετικές λέξεις.

Δηλαδή: 1541' λέξεις αποτελούν το 80% του λεξιλογίου στα τραγούδια'.

Ήδη, αυτό το ποσοστό μας δείχνει ότι το λεξιλόγιο και η θεματολογία των τραγουδιών είναι σχετικά περιορισμένα. Αυτό δεν αποτελεί έκπληξη, καθώς τα περισσότερα τραγούδια είναι γραμμένα σε απλή και καθημερινή γλώσσα.

Ας δούμε τώρα την συχνότητα των λέξεων ανά κατηγορία:


Ρήματα

α/α

Ρήμα

Αριθμός
εμφανίσεων

1 είμαι 6639
2 έχω 3786
3 λέω 3268
4 θέλω 2169
5 αγαπάω 1988
6 έρχομαι 1886
7 πηγαίνω 1558
8 κάνω 1539
9 βλέπω 1358
10 παίρνω 1356
11 ξέρω 1220
12 φεύγω 1212
13 βρίσκω 987
14 γίνομαι 964
15 μπορώ 917
16 δίνω 797
17 γυρίζω 776
18 περνάω 758
19 κοιτάω 712
20 κλαίω 670
21 αφήνω 668
22 μένω 648
23 θυμάμαι 629
24 χάνομαι 597
25 μιλάω 562
26 κρατάω 524
27 βγαίνω 501
28 ξεχνάω 493
29 ζητάω 471
30 πονάω 444
31 ακούω 437
32 υπάρχω 436
33 ψάχνω 424
34 βάζω 415
35 χάνω 406
36 φέρνω 400
37 νιώθω 378
38 φτάνω 370
39 πίνω 368
40 γελάω 359

Αν εξαιρέσουμε τα βοηθητικά ρήματα «είμαι» και «έχω», είναι προφανές ότι οι Έλληνες «λένε», «θέλουν» και «αγαπάνε» πολύ στα τραγούδια τους, ενώ το «έρχομαι» (στην προστακτική «έλα», όπως θα δούμε παρακάτω), είναι στην αμέσως επόμενη θέση.


Ουσιαστικά

α/α

Ουσιαστικό

Αριθμός
Εμφανίσεων

1 ζωή 1657
2 καρδιά 1652
3 αγάπη 1586
4 μάτι 1312
5 νύχτα 1219
6 όνειρο 881
7 χρόνος 863
8 μέρα 828
9 κόσμος 796
10 δρόμος 795
11 παιδί 759
12 φως 701
13 χέρι 629
14 φωτιά 609
15 ψυχή 551
16 τραγούδι 523
17 φίλος 521
18 φιλί 518
19 φορά 512
20 ουρανός 510
21 καιρός 494
22 ώρα 468
23 αγκαλιά 447
24 λόγια 436
25 πόνος 419
26 ήλιος 416
27 χαρά 410
28 βραδιά 410
29 θεός 409
30 στιγμή 405
31 θάλασσα 403
32 βράδυ 393
33 δάκρυ 390
34 έρωτας 387
35 σπίτι 369
36 βροχή 365
37 μυαλό 350
38 κορμί 348
39 φωνή 345
40 φεγγάρι 345

Από τα ουσιαστικά γίνεται σαφές ότι τα περισσότερα τραγούδια είναι ερωτικά, με την «ζωή», την «καρδιά» και το «μάτι» (για την ακρίβεια «μάτια», όπως θα δούμε παρακάτω) να είναι σε κυρίαρχη θέση. Η συχνή αναφορά στη «ζωή» δείχνει ότι πάρα πολλά τραγούδια έχουν μια υπαρξιακή χροιά. Οι Έλληνες είναι νυχτερινοί τύποι, και έτσι η «νύχτα», η «βραδιά» και το «βράδυ» με 2022 συνολικά εμφανίσεις, υπερτερούν σημαντικά σε σχέση με την «ημέρα».


Επίθετα

α/α

Επίθετο

Αριθμός
εμφανίσεων

1 όλος 2480
2 μόνος 1260
3 πολύς 815
4 καλός 749
5 μικρός 606
6 παλιός 575
7 μαύρος 534
8 λίγος 526
9 γλυκός 462
10 τρελός 374
11 μεγάλος 357
12 εκείνος 327
13 ίδιος 314
14 ξένος 300
15 πρώτος 299
16 χαμένος 299
17 μοναχός 297
18 βαθύς 274
19 όμορφος 261
20 ωραίος 227
21 ψηλός 222
22 πικρός 215
23 βαρύς 209
24 άδειος 209
25 αργός 204
26 κόκκινος 189
27 κρυφός 188
28 άσπρος 181
29 διπλός 166
30 τελευταίος 153
31 χρυσός 142
32 κρύος 131
33 σκοτεινός 127
34 νέος 118
35 σκληρός 117
36 κλειστός 115
37 δυνατός 114
38 μισός 106
39 έρημος 105
40 φτωχός 105

Αν, όπως είδαμε πριν, τα περισσότερα τραγούδια έχουν ερωτικό περιεχόμενο, εδώ φαίνεται καθαρά ότι μιλάνε για ανεκπλήρωτο έρωτα, αφού η λέξη «μόνος» είναι στην δεύτερη θέση. Όσον αφορά τα χρώματα, το «μαύρο» έρχεται πρώτο, με το «κόκκινο» (χρώμα του έρωτα) στην δεύτερη θέση.


Αντωνυμίες

α/α

Αντωνυμία

Αριθμός
εμφανίσεων

1 εγώ 14135
2 εσύ 9448
3 ένας 7121
4 αυτός 5458
5 εμείς 4779
6 αυτοί 1759
7 άλλος 1462
8 δυο 1222
9 όσος 704
10 δικός 676
11 ποιος 662
12 κάποιος 644
13 τόσος 627
14 κανένας 617
15 πόσος 390
16 εσείς 365
17 τούτος 204
18 ποια 197
19 καμιά 145
20 εαυτός 137

Όσον αφορά τις αντωνυμίες, είναι εμφανής η πλειοψηφία του «εγώ». Σε συνδυασμό με την «αγάπη» και τις «μοναξιές» που είδαμε παραπάνω, αυτό δείχνει ότι οι περισσότεροι στιχουργοί μιλάνε για προσωπικές εμπειρίες.


Κύρια ονόματα


α/α

Κύριο όνομα

Αριθμός
εμφανίσεων

1 Κυριακή 195
2 Αθήνα 115
3 Μαρία 82
4 Θεσσαλονίκη 77
5 Χάρος 73
6 Ελλάδα 64
7 Σάββατο 63
8 Χριστός 55
9 Παναγιά 51
10 Πειραιάς 51
11 Άννα 44
12 Γιάννης 39
13 Ελένη 39
14 Χριστίνα 36
15 Ρίτα 29
16 Λένγκω 29
17 Κατερίνα 28
18 Κρήτη 22
19 Αμερική 22
20 Μάης 22

Η Κυριακή, για ευνόητους λόγους, έχει κυρίαρχη θέση στα τραγούδια, με το Σάββατο να ακολουθεί με αρκετή απόσταση. Η Αθήνα, η Θεσσαλονίκη και λιγότερο ο Πειραιάς, είναι οι πιο δημοφιλείς πόλεις. Μαρία, Άννα, Ελένη, Χριστίνα είναι τα πιο αγαπητά γυναικεία ονόματα, και από ανδρικά μόνο ο Γιάννης, πράγμα που βεβαιώνει ότι τα πιο πολλά τραγούδια είναι γραμμένα για (από άντρες) για γυναίκες.


Λέξεις στην αρχική τους μορφή

Στους επόμενους πίνακες παρουσιάζονται πάλι τα στατιστικά των λέξεων από τα τραγούδια, αλλά αυτή τη φορά οι λέξεις εμφανίζονται ακριβώς στην μορφή (πτώση / αριθμός / πρόσωπο / γένος) όπως ακριβώς στους αντίστοιχους στίχους. Αυτό δίνει μια πιο ακριβή εικόνα του πώς εμφανίζονται και χρησιμοποιούνται οι λέξεις στα τραγούδια.


Ρήματα

α/α Ρήμα Αριθμός
εμφανίσεων
1 είναι 2504
2 έχω 1039
3 θέλω 962
4 αγαπώ 923
5 είμαι 877
6 είσαι 734
7 έχει 719
8 έλα 610
9 ξέρω 561
10 πες 558
11 ήταν 472
12 λες 472
13 είν 456
14 έχεις 417
15 πάει 406
16 θες 394
17 βρω 388
18 κάνω 366
19 μπορώ 366
20 αγαπάς 358
21 κάνει 350
22 πει 308
23 είχα 293
24 λέει 286
25 λέω 285
26 ξέρεις 279
27 θέλεις 275
28 δεις 274
29 είδα 266
30 μπορεί 259
31 έχουν 257
32 βλέπω 255
33 σαι 255
34 πας 255
35 θυμάμαι 245
36 ξέρει 240
37 κάνεις 235
38 μαι 231
39 πάρε 230
40 πεις 229


Ουσιαστικά

α/α

Λέξη

Αριθμός
εμφανίσεων

1 ζωή 1425
2 αγάπη 1328
3 καρδιά 1326
4 μάτια 1188
5 νύχτα 863
6 μέρα 616
7 φως 530
8 χρόνια 505
9 φωτιά 471
10 ψυχή 439
11 λόγια 436
12 παιδιά 406
13 αγκαλιά 405
14 βράδυ 393
15 χέρια 375
16 φορά 359
17 κόσμο 347
18 όνειρα 344
19 παιδί 341
20 σπίτι 338
21 ώρα 337
22 θάλασσα 318
23 βροχή 317
24 χαρά 317
25 δρόμο 314
26 πρωί 311
27 αλήθεια 298
28 μάνα 293
29 τραγούδι 285
30 κορμί 283
31 μυαλό 275
32 όνειρο 268
33 στιγμή 267
34 φεγγάρι 262
35 φιλί 259
36 φιλιά 259
37 χέρι 254
38 νύχτες 251
39 πόρτα 247
40 δάκρυ 246


Επίθετα

α/α Επίθετο Αριθμός
εμφανίσεων
1 όλα 1210
2 μόνο 748
3 όλο 429
4 πολύ 425
5 λίγο 380
6 καλά 346
7 όλοι 341
8 παλιά 316
9 μόνος 253
10 πολλά 233
11 βαθιά 221
12 μικρό 214
13 όλη 212
14 ψηλά 207
15 αργά 204
16 μικρή 193
17 μαύρα 176
18 γλυκιά 172
19 μόνη 170
20 ίδια 167
21 καλό 149
22 μαύρη 148
23 γλυκό 144
24 μαύρο 144
25 ωραία 141
26 παλιό 138
27 γλυκά 128
28 όλες 127
29 καλέ 125
30 όμορφη 125
31 βαριά 119
32 ίδιο 117
33 μεγάλη 116
34 πρώτη 116
35 τρελή 116
36 όλους 112
37 άδεια 106
38 πικρό 104
39 μεγάλο 103
40 καλή 101


Αντωνυμίες

α/α Επίθετο Αριθμός
εμφανίσεων
1 μου 11673
2 σου 7280
3 μια 3334
4 του 3053
5 ένα 2667
6 μας 2081
7 εγώ 1792
8 τους 1530
9 εσύ 1221
10 δυο 1046
11 αυτό 914
12 σένα 583
13 αυτή 562
14 ποιος 465
15 μένα 460
16 ένας 424
17 άλλο 392
18 αυτά 383
19 άλλη 377
20 τόσο 335
21 κανείς 331
22 όσο 304
23 αυτός 290
24 όσα 289
25 σας 287
26 πόσο 273
27 εσένα 269
28 δικό 215
29 μάς 199
30 ποια 197
31 κάποια 194
32 δική 187
33 άλλα 186
34 εμείς 167
35 εμένα 166
36 δύο 163
37 τόσα 161
38 μιας 160
39 έναν 156
40 μία 152


Κύρια ονόματα

α/α Κύριο όνομα Αριθμός
εμφανίσεων
1 Κυριακή 142
2 Αθήνα 115
3 Μαρία 82
4 Ελλάδα 64
5 Θεσσαλονίκη 56
6 Παναγιά 51
7 Άννα 44
8 Γιάννη 39
9 Ελένη 39
10 Κυριακές 36
11 Χριστίνα 36
12 Χάρος 32
13 Χριστέ 31
14 Σάββατο 30
15 Λένγκω 29
16 Περαία 29
17 Ρίτα 29
18 Χάρο 29
19 Κατερίνα 28
20 Χριστό 24


Μερικά στατιστικά ακόμα

Από τις κλιτές λέξεις, 149286 (ποσοστό 81%) είναι στον ενικό και 33858 (ποσοστό 19%) στον πληθυντικό.

Από τις λέξεις που έχουν γένος (ουσιαστικά, επίθετα, αντωνυμίες), 17548 (18%) είναι αρσενικού γένους, 38430 (38%) θηλυκού και 43892 (44%) ουδέτερου.

Η γενική πτώση εμφανίζεται μόνο σε 2109 περιπτώσεις (ποσοστό κάτω από 2%) – κατά πάσα πιθανότητα είναι πολύ πολύπλοκη και «λόγια» για τα περισσότερα τραγούδια.

Αναλύοντας τους τύπους των ρημάτων, βλέπουμε την παρακάτω εικόνα: 1ο ενικό 20117 (32%) 2ο ενικό 16822 (27%) 3ο ενικό 19113 (31%) 1ο πληθυντικό 1230 (2%) 2ο πληθυντικό 175 (0%) 3ο πληθυντικό 4604 (7%) Το πρώτο ενικό πρόσωπο είναι στην πρώτη θέση, δείχνοντας ότι ένα μεγάλο μέρος των τραγουδιών είναι «αφηγηματικά». Η απουσία του πληθυντικού είναι εντυπωσιακή, και επιβεβαιώνει ότι τα περισσότερα τραγούδια διηγούνται προσωπικές ιστορίες.

Η αναλογία επιθέτων / αντωνυμιών / ουσιαστικών / ρημάτων είναι όπως παρακάτω: Επίθετα: 18539 (10%) Αντωνυμίες: 50130 (26%) Ουσιαστικά: 64399 (33%) Ρήματα: 62019 (32%) Η σχετικά μικρή αναλογία επιθέτων δείχνει ότι τα περισσότερα τραγούδια έχουν έναν άμεσο και απλό τρόπο γραφής.

Από τα ρήματα, 8395 (13%) είναι σε παρελθοντική μορφή, πράγμα που επιβεβαιώνει το προηγούμενο συμπέρασμα.


Συμπέρασμα

Η χρήση της «ανακύκλωσης» στους στίχους των τραγουδιών επιβεβαιώθηκε. Σε μεγάλη πλειοψηφία οι λέξεις που χρησιμοποιούνται, προέρχονται από ένα συγκεκριμένο λεξιλόγιο. Το τυπικό τραγούδι (αν μπορούμε να πούμε ότι υπάρχει κάτι τέτοιο), είναι ερωτικού περιεχομένου, ο έρωτας είναι ανικανοποίητος, και λαμβάνει χώρα ή έχει σχέση με τη νύχτα. Είναι γραμμένο στον ενικό αριθμό, συνήθως σε πρώτο ή δεύτερο πρόσωπο, και σε ενεστώτα χρόνο, με τα χέρια, την καρδιά και τα μάτια του αγαπημένου προσώπου να κυριαρχούν στο τραγούδι.

Έτσι λοιπόν, όσοι διάβασαν αυτό το κείμενο και ασχολούνται με την στιχουργική, ξέρουν τώρα τι πρέπει να επιδιώξουν (ή να αποφύγουν!).

Προσωπικά εργαλεία
Χώροι ονομάτων

Παραλλαγές
Ενέργειες
Πλοήγηση
Εργαλειοθήκη