ISTAL27: Η ΤΝ δοκιμάζεται στα ελληνικά

Έρευνες για την Τεχνητή Νοημοσύνη και τα μεγάλα γλωσσικά μοντέλα και την χρήση τους δείχνουν ότι η γλώσσα παραμένει πεδίο ανθρώπινης κρίσης, επιμέλειας και ευθύνης.

ISTAL27: Η ΤΝ δοκιμάζεται στα ελληνικά
Φωτογραφία του theopinion

Μπορεί η Τεχνητή Νοημοσύνη να «διαβάσει» τους νεολογισμούς του Ελύτη; Μπορούν 500 ανθρώπινα επιμελημένοι διάλογοι να αποδώσουν καλύτερα από 10.000 αυτόματα παραγόμενοι; Και πώς γράφεται μια περιγραφή μουσείου για ανθρώπους που δεν βλέπουν, αλλά ακούν την εικόνα μέσα από τη γλώσσα;

Στο 27ο Διεθνές Συμπόσιο Θεωρητικής και Εφαρμοσμένης Γλωσσολογίας — ISTAL 27, που πραγματοποιήθηκε με μεγάλη επιτυχία στη Θεσσαλονίκη, στο ΚΕΔΕΑ, στις 15-17 Μαΐου, μια σειρά παρουσιάσεων ανέδειξε με διαφορετικούς τρόπους το ίδιο ενδιαφέρον και επίκαιρο ερώτημα: τι συμβαίνει όταν η ελληνική γλώσσα συναντά τις νέες τεχνολογίες;

Συγκεκριμένα, το Συμπόσιο διοργανώθηκε από τον Τομέα Θεωρητικής και Εφαρμοσμένης Γλωσσολογίας του Τμήματος Αγγλικής Γλώσσας και Φιλολογίας του ΑΠΘ, με αντικείμενο τη θεωρητική και εφαρμοσμένη γλωσσολογία. Στους προσκεκλημένους ομιλητές περιλαμβάνονταν η Αγγελική Αθανασιάδου από το ΑΠΘ, η Maria Koptjevskaja-Tamm από το Πανεπιστήμιο της Στοκχόλμης, η Ιώ Μανωλέσσου από την Ακαδημία Αθηνών, ο Vito Pirrelli από το Ινστιτούτο Υπολογιστικής Γλωσσολογίας Antonio Zampolli στην Πίζα, ο Frank Erik Pointner από το Πανεπιστήμιο Duisburg-Essen και η Αγγελική Ράλλη από το Πανεπιστήμιο Πατρών.

Νίκος Μαθιουδάκης στο ΚΕΔΕΑ
Φωτογραφία που παραχώρησε στο theopinion ο Νίκος Μαθιουδάκης.

ΤΝ και Ελύτης

Η πιο απρόσμενη αφετηρία ήταν ίσως ο Οδυσσέας Ελύτης. Στην εργασία του με τίτλο «Ποιητικοί Νεολογισμοί του Ελύτη: μορφοσημασιολογική ανάλυση με τη χρήση Τεχνητής Νοημοσύνης», ο ερευνητής Γλωσσολογίας της Ακαδημίας Αθηνών Νίκος Μαθιουδάκης, εξέτασε τη δυνατότητα των μεγάλων γλωσσικών μοντέλων να αναλύσουν λέξεις που δεν υπάρχουν ως έτοιμες, λεξικογραφημένες μονάδες, αλλά γεννιούνται μέσα στο ίδιο το ποιητικό σώμα. Νεολογισμοί όπως «ανδροβάδιστα», «ερωτοφωτόσχιστος», «ηλιοπότης», «θαλασσοξυπνημένη», «κυματοστραμμένοι», «πετροπαιχνιδιάτορας», «ποντοθώρητη» που βρίσκουμε στο ποιητικό σύμπαν του Ελύτη είναι συμπυκνωμένες εικόνες, σημασίες και πολιτισμικά φορτία.

Στόχος της έρευνας ήταν η διερεύνηση του τι μπορεί να κάνει ένα μεγάλω γλωσσικό μοντέλο όταν του δίνεται μια λέξη χωρίς συγκείμενο; Τι αλλάζει όταν του δοθεί το ποιητικό απόσπασμα; Και πώς μπορεί, στη συνέχεια, να συνθέσει ένα λεξικογραφικό λήμμα;

Η εργασία αναδεικνύει και ένα ευρύτερο κενό. Σε αντίθεση με τη διεθνή παράδοση, όπου υπάρχουν εξειδικευμένα λεξικά και γλωσσάρια για συγγραφείς όπως ο Shakespeare, ο Dickens ή ο Joyce, στην ελληνική βιβλιογραφία οι συστηματικές λεξικογραφικές καταγραφές για το λεξιλόγιο συγκεκριμένων λογοτεχνών παραμένουν περιορισμένες. Υπό αυτή την έννοια, η χρήση της ΤΝ θα μπορούσε να δώσει διεξόδους, καθώς η ελληνική φιλολογία χειάζεται νέα εργαλεία για τη χαρτογράφηση της ποιητικής γλώσσας.

ΤΝ με ή χωρίς ανθρώπινο έλεγχο;

Αφήνοντας την ποίηση και περνώντας στον χώρο της καθημερινής επικοινωνίας, η παρουσίαση της Υπολογιστικής Γλωσσολόγου και Διδάσκουσας στο Πανεπιστήμιο Αθηνών και στο Ελληνικό Ανοικτό Πανεπιστήμιο Αλεξάνδρας Φιωτάκη, με τίτλο «Χρήση μαζικών ή ποιοτικών δεδομένων: Η ανθρώπινη επίβλεψη ως ρυθμιστικός παράγοντας της ανάπτυξης Μεγάλων Γλωσσικών Μοντέλων», ανέδειξε το παρακάτω δίλημμα για την ανάπτυξη γλωσσικών μοντέλων στα ελληνικά: είναι προτιμότερα τα πολλά συνθετικά δεδομένα ή τα λιγότερα, αλλά ανθρώπινα επιμελημένα;

Σύμφωνα με τα πορίσματα της έρευνας, για μια γλώσσα περιορισμένων ψηφιακών πόρων, όπως τα ελληνικά, η ποιότητα των δεδομένων μπορεί να αποδειχθεί σημαντικότερη από την ποσότητα. Η ανθρώπινη επιμέλεια κρίνεται απαραίτητη για να βελτιώσει την ποιότητα του αποτελέσματος και τον χρόνο υλοποίησης.

Αλεξάνδρα Φιωτάκη
Φωτογραφία που παραχώρησε στο theopinion η Αλεξάνδρα Φιωτάκη.

Συγκεκριμένα, η ερευνήτρια έθεσε αντιμέτωπα ένα εκπαιδευμένο γλωσσικό μοντέλο σε 10.000 συνθετικούς διαλόγους χωρίς ανθρώπινο έλεγχο και ένα δεύτερο σε μόλις 500 πλήρως επιμελημένους διαλόγους. Μπορούν, λοιπόν, είκοσι φορές λιγότερα δεδομένα να δώσουν καλύτερα αποτελέσματα, όταν υπάρχει ανθρώπινη επιμέλεια; Η μελέτη δείχνει ότι μπορούν.

Ακόμη, μεγαλύτερη σημασία έχει το γεγονός ότι με τον δεύτερο τρόπο αποφεύχθηκαν λάθη. Τα μοντέλα που βασίζονται σε μη επιμελημένα ή μαζικά συνθετικά δεδομένα μπορούν να αναπαράγουν αφύσικες δομές, μεταφραστικές αγκυλώσεις, λάθη πτώσης, ανάμειξη ύφους, ακόμη και διαρροές προσωπικών ή τραπεζικών δεδομένων.

Η δεύτερη μελέτη της παρουσίασης, για την παραγωγή διαλόγων, ενισχύει το ίδιο συμπέρασμα. Το μοντέλο ανθρώπινης επιμέλειας εμφανίζει 100% επιτυχή παραγωγή, ενώ υπερέχει και στα δομικά χαρακτηριστικά των διαλόγων: αυτοπαρουσίαση πράκτορα, προσφορά follow-up και σωστό κλείσιμο. Συνεπώς, η εκπαίδευση σε συνθετικά δεδομένα δεν είναι από μόνη της λύση.

Από αυτή την άποψη, η εργασία της Φιωτάκη μετατοπίζει τη συζήτηση για την Τεχνητή Νοημοσύνη από το επίπεδο της εντυπωσιακής παραγωγής κειμένου στο επίπεδο της ευθύνης. Ποιος ελέγχει τα δεδομένα; Ποιος αποφασίζει τι είναι φυσικό ελληνικό; Ποιος αφαιρεί τον θόρυβο πριν αυτός εκπαιδεύσει το μοντέλο; Και ποιος προστατεύει τον χρήστη από τις συνέπειες μιας φαινομενικά μικρής γλωσσικής αστοχίας;

Θεοδώρα Ψωμά στο ΚΕΔΕΑ
Φωτογραφία του theopinion

Γλώσσα και Πρόσβαση

Σε αυτό το σημείο, μια ακόμη παρουσίαση, αν και δεν είχε ως κύριο θέμα την AI, προσθέτει μια κρίσιμη διάσταση: τη γλώσσα ως πρόσβαση. Η παρουσίαση της υποψ. Διδακτόρισσας Γλωσσολογίας στο Τμήμα Αγγλικής Γλώσσας και Φιλολογίας Θεοδώρας Ψωμά αφορούσε την ακουστική περιγραφή σε μουσεία για τυφλούς και μερικώς βλέποντες επισκέπτες. Εξέτασε τους τρόπους με τους οποίους πώς διαμορφώνεται ένα κείμενο ώστε να μπορεί πραγματικά να ακουστεί, να γίνει κατανοητό και να λειτουργήσει μέσα στον χώρο του μουσείου.

Το υλικό βασίζεται σε ακουστικές περιγραφές από μουσεία της Θεσσαλονίκης, σε ερωτηματολόγια προς τυφλούς και μερικώς βλέποντες συμμετέχοντες και σε εργαλεία μέτρησης ‘αναγνωσιμότητας’. Η διάρκεια, η σαφήνεια, η επιλογή των λέξεων, η αποφυγή περιττής παθητικής σύνταξης και η συμμετοχή των ίδιων των τελικών χρηστών αποδεικνύονται βασικές παράμετροι.

Ενδιαφέρον έχει ότι και εδώ εμφανίζεται η Τεχνητή Νοημοσύνη, αλλά περισσότερο ως υπενθύμιση των ορίων της. Σύμφωνα με την παρουσίαση, υπήρξαν κείμενα ακουστικής περιγραφής που προέκυψαν με την χρήση ΤΝ και άλλα που συνδύαζαν ΤΝ με ανθρώπινη εποπτεία. Η εργασία αυτή συνομιλεί άμεσα με τα ευρήματα των δύο προηγούμενων εργασιών, καθώς συμφωνεί στο ότι η παραγωγή κειμένου δεν αρκεί. Το ερώτημα είναι αν το κείμενο λειτουργεί για τον άνθρωπο που το χρειάζεται.

Η Τεχνητή Νοημοσύνη μπορεί να αναλύει, να παράγει, να συνοψίζει, να προτείνει. Μπορεί να δείξει τον δρόμο για νέα εργαλεία για τη φιλολογία, τη λεξικογραφία, την εξυπηρέτηση, την προσβασιμότητα. Όμως οι εργασίες που παρουσιάστηκαν στο ISTAL 27 δείχνουν ότι, ειδικά στα ελληνικά, το κρίσιμο ερώτημα είναι ποιος ελέγχει τη γλώσσα της και ποιος διασφαλίζει ότι το αποτέλεσμα παραμένει ακριβές, φυσικό, ασφαλές και ανθρώπινα χρήσιμο.