Google και OpenAI σπάνε τα όρια: Εργαλεία ΤΝ λύνουν αλγοριθμικές προκλήσεις σε πανεπιστημιακό διαγωνισμό

Google και OpenAI σπάνε τα όρια: Εργαλεία ΤΝ λύνουν αλγοριθμικές προκλήσεις σε πανεπιστημιακό διαγωνισμό

Η OpenAI και η Google DeepMind έδειξαν ότι τα θεμελιώδη μοντέλα τους μπορούν να ξεπεράσουν ανθρώπινους προγραμματιστές  αποδεικνύοντας ότι τα μεγάλα γλωσσικά μοντέλα (LLMs) έχουν τη δυνατότητα να επιλύουν πολύπλοκους, μέχρι πρότινος άλυτους, αλγορίθμους. Το GPT-5 της OpenAI και το Gemini 2.5 Deep Think της Google συμμετείχαν στους Παγκόσμιους Τελικούς του International Collegiate Programming Contest (ICPC) 2025. Ο διαγωνισμός συγκεντρώνει πανεπιστημιακές ομάδες κώδικα από όλο τον κόσμο, οι οποίες  καλούνται να απαντήσουν σε περίπλοκα αλγοριθμικά προβλήματα. Παρότι τα δύο μοντέλα δεν διαγωνίστηκαν τυπικά δίπλα σε ανθρώπινες ομάδες  η συμμετοχή τους έγινε με ειδικούς κανόνες του ICPC  υπό εποπτεία επιτυγχάνοντας  να λύσουν προβλήματα που οι διαγωνιζόμενοι φοιτητές δεν μπόρεσαν. Το GPT-5 πέτυχε το απόλυτο σκορ, απαντώντας σωστά και στα 12 ζητήματα, επίδοση που αντιστοιχεί  με χρυσό μετάλλιο. Το Gemini 2.5 Deep Think έλυσε 10 από τα 12 προβλήματα σε 677 λεπτά, επίδοση που, σύμφωνα με την Google DeepMind, θα το κατέτασσε δεύτερο συνολικά. Οι πραγματικοί νικητές ήταν ομάδες από το Κρατικό Πανεπιστήμιο της Αγίας Πετρούπολης, το Πανεπιστήμιο του Τόκιο, το Πανεπιστήμιο Jiaotong του Πεκίνου και το Πανεπιστήμιο Tsinghua, με τα Harvard και MIT να κατακτούν ασημένιο μετάλλιο. Καμία ανθρώπινη ομάδα δεν πέτυχε 12 στις 12 λύσεις.

Ο φετινός διαγωνισμός συγκέντρωσε 139 πανεπιστήμια από 103 χώρες. Στους τελικούς, οι διαγωνιζόμενοι πρέπει να λύσουν μέσα σε πέντε ώρες το ίδιο σετ προβλημάτων. Η τελική κατάταξη εξαρτάται από τον αριθμό των λύσεων και τον χρόνο που χρειάστηκαν. Η OpenAI σημείωσε σε ανάρτησή της ότι «αγωνιστήκαμε επίσημα στην ειδική κατηγορία AI του ICPC, με το ίδιο χρονικό όριο των 5 ωρών και τα ίδια 12 προβλήματα. Οι υποβολές κρίθηκαν ταυτόχρονα με εκείνες των ανθρώπινων ομάδων. Σε 11 από τα 12 προβλήματα η πρώτη απάντηση ήταν σωστή. Στο δυσκολότερο χρειάστηκαν 9 υποβολές. Αξίζει να σημειωθεί ότι η καλύτερη ανθρώπινη ομάδα πέτυχε 11/12». Η Google από την πλευρά της ανέφερε ότι το Gemini «έλυσε οκτώ προβλήματα μέσα σε μόλις 45 λεπτά και δύο ακόμη σε τρεις ώρες». Επιπλέον, κατάφερε να δώσει λύση σε ένα ζήτημα που καμία πανεπιστημιακή ομάδα δεν μπόρεσε να αντιμετωπίσει: τη διανομή υγρού μέσα από δίκτυο αγωγών. Σύμφωνα με την Google, το μοντέλο αξιοποίησε μια ευφυή ιδέα, αποδίδοντας «τιμές προτεραιότητας» σε κάθε δεξαμενή και εφαρμόζοντας αλγόριθμο δυναμικού προγραμματισμού με τη βοήθεια του θεωρήματος minimax και εσωτερικών αναζητήσεων για να βρει τη βέλτιστη λύση.

Η εμφάνιση αυτή δείχνει ότι τα LLMs δεν περιορίζονται στην απάντηση ερωτήσεων γενικής γνώσης ή στα συνηθισμένα τεστ αξιολόγησης. Στον χώρο του ICPC απέδειξαν ότι μπορούν να λύσουν σύνθετα μαθηματικά προβλήματα και να ξεπεράσουν ανθρώπους σε ανταγωνιστικό περιβάλλον προγραμματισμού. Το κενό μεταξύ ανθρώπινης σκέψης και μηχανών μειώνεται σταθερά. Μόλις φέτος, η Google είχε ανακοινώσει ότι το Gemini κέρδισε χρυσό μετάλλιο στη Διεθνή Μαθηματική Ολυμπιάδα, ενώ λίγους μήνες νωρίτερα τα LLMs δυσκολεύονταν στο benchmark FrontierMath.

Φυσικά, οι περισσότερες επιχειρήσεις δεν χρειάζονται μοντέλα που να λύνουν τα δυσκολότερα προγραμματιστικά προβλήματα του κόσμου. Ωστόσο, καθώς αναζητούν τρόπους να αναθέτουν πιο περίπλοκες ροές εργασίας σε συστήματα ΤΝ, η απόδειξη ότι τέτοια μοντέλα έχουν ισχυρές ικανότητες κώδικα και μαθηματικής σκέψης είναι ιδιαίτερα σημαντική. Η πρόοδος αυτή υποδηλώνει ότι τα foundation models μπορούν να χρησιμοποιήσουν βαθιά αφαιρετική σκέψη και δημιουργική επίλυση προβλημάτων, δεξιότητες που ίσως αποδειχθούν ανεκτίμητες στο μέλλον.

Για πολλούς, τέτοιες επιδόσεις αποτελούν βήμα προς την τεχνητή γενική νοημοσύνη (AGI). Το κλείσιμο του χάσματος με τον άνθρωπο μέσα από διαγωνισμούς προγραμματισμού δείχνει ότι τα σημερινά μοντέλα κινούνται σταθερά σε αυτήν την κατεύθυνση. Οι «χρυσές» επιτυχίες δεν πέρασαν απαρατήρητες, με την κοινότητα των power users της ΤΝ να τις συζητά έντονα στα μέσα κοινωνικής δικτύωσης.