Το AI21 Labs μοιάζει λίγο με μια ισραηλινή απάντηση στο αμερικανικό OpenAI. Είναι ταυτόχρονα ερευνητικό εργαστήριο, που πραγματοποιεί πρωτοποριακή εργασία στην επεξεργασία φυσικής γλώσσας (NLP), αλλά και εμπορική επιχείρηση, που ελπίζει να μετατρέψει γρήγορα αυτές τις τελευταίες εξελίξεις σε προϊόντα που πραγματικές επιχειρήσεις μπορούν να χρησιμοποιήσουν—και να πληρώσουν.
Το AI21 Labs ιδρύθηκε από τον Yoav Shoham, ομότιμο καθηγητή τεχνητής νοημοσύνης στο Πανεπιστήμιο Stanford· τον Amnon Shashua, ιδρυτή της εταιρείας λογισμικού αυτόνομης οδήγησης Mobileye, η οποία εξαγοράστηκε από την Intel· και τον Ori Goshen, ιδρυτή της πλατφόρμας crowdfunding CrowdX. Ο φιλόδοξος στόχος της εταιρείας είναι «να επαναπροσδιορίσει τον τρόπο που οι άνθρωποι διαβάζουν και γράφουν, προς το καλύτερο».
Το εργαστήριο έχει δημιουργήσει ένα νέο σύστημα που αποκαλεί με κάποια θρασύτητα «Miracle», μια πιο φιλική έκδοση του MRKL, ακρωνύμιο για το σύστημα Modular Reasoning, Knowledge and Language. Το MRKL είναι σημαντικό λόγω αυτών που αποκαλύπτει για τέσσερις βασικές τάσεις στον τρόπο που οι επιχειρήσεις θα χρησιμοποιούν την Τ.Ν. στο μέλλον.
Πρώτον, το MRKL είναι σχεδιασμένο να χειρίζεται κάθε είδους εργασίες φυσικής γλώσσας, όχι μόνο μία συγκεκριμένη δουλειά όπως τα περισσότερα τέτοια συστήματα μέχρι πρόσφατα. Για παράδειγμα, αν θέλατε ένα chatbot εξυπηρέτησης πελατών, η ίδια Τ.Ν. δεν μπορούσε να βοηθήσει στην ανάλυση του συναισθήματος των τηλεδιασκέψεων κερδών CEO. Τώρα όμως μια ενιαία μηχανή NLP μπορεί να βοηθήσει και στις δύο εργασίες. Είναι ένα ακόμη παράδειγμα της πραγματικής επανάστασης στο NLP και της επίδρασης που αρχίζει να έχει στις επιχειρήσεις.
Η δεύτερη, και στενά συνδεδεμένη, τάση που πρέπει να σημειωθεί είναι ότι αυτά τα γενικής χρήσης συστήματα NLP θα βασίζονται όλο και περισσότερο σε «υπερμεγέθη γλωσσικά μοντέλα», μεμονωμένους αλγορίθμους που μαθαίνουν δισεκατομμύρια στατιστικές σχέσεις μεταξύ λέξεων. Εκπαιδεύονται σε τεράστιες ποσότητες κειμένου που αντλούνται από το διαδίκτυο, συμπεριλαμβανομένων βιβλίων γραμμένων στα αγγλικά και άλλες γλώσσες, καθώς και δημόσιων πηγών όπως η Wikipedia και τα νήματα του Reddit. Τα περισσότερα από αυτά τα συστήματα εκπαιδεύονται είτε να προβλέπουν μια λέξη που λείπει σε μια πρόταση είτε την επόμενη λέξη σε μια πρόταση. Αλλά αποδεικνύεται ότι, όταν δημιουργείς ένα σύστημα Τ.Ν. τόσο μεγάλο και το εκπαιδεύεις να κάνει ένα πράγμα, μπορεί επίσης να κάνει πολλά άλλα πράγματα με ελάχιστη ή καθόλου πρόσθετη εκπαίδευση: μετάφραση, απάντηση ερωτήσεων και συγγραφή πρωτότυπων αποσπασμάτων κειμένου.
Επιπλέον, με λίγη επιπλέον εκπαίδευση σε σχετικά μικρό αριθμό παραδειγμάτων, αυτά τα μεγάλα γλωσσικά μοντέλα μπορούν συχνά να ξεπεράσουν μικρότερα συστήματα Τ.Ν. που εκπαιδεύτηκαν σε μεγάλα σύνολα δεδομένων—συχνά επιμελημένα με μεγάλο κόστος—για να εκτελέσουν μόνο μία στενή εργασία. Είναι αυτή η ικανότητα απόδοσης με «λίγα δεδομένα» που καθιστά τα υπερμεγέθη γλωσσικά μοντέλα τόσο δυνητικά ελκυστικά για τις επιχειρήσεις, καθώς η χρήση τους θα μπορούσε να είναι ταχύτερη και φθηνότερη.
Ίσως το πιο γνωστό παράδειγμα υπερμεγέθους γλωσσικού μοντέλου διαθέσιμου για εμπορική χρήση είναι το GPT-3 της OpenAI. Η OpenAI έχει στενή σχέση με τη Microsoft, η οποία επένδυσε περισσότερα από 1 δισεκατομμύριο δολάρια στην εταιρεία, και, όπως ήταν αναμενόμενο, η Microsoft έχει ενσωματώσει το GPT-3 σε ένα προϊόν που γράφει αυτόματα κώδικα υπολογιστή. Επίσης διαθέτει την τεχνολογία στους πελάτες του cloud Azure.
Το AI21 Labs διαθέτει το δικό του υπερμεγέθες γλωσσικό μοντέλο που ονομάζεται Jurassic-1, το οποίο κυκλοφόρησε εμπορικά πέρυσι και ισχυρίζεται ότι υπερέχει του GPT-3, εν μέρει επειδή έχει μεγαλύτερο «λεξιλόγιο token». Αυτό αναφέρεται στον αριθμό των λέξεων και τμημάτων λέξεων που γνωρίζει. Το Jurassic έχει λεξιλόγιο token άνω των 250.000, πέντε φορές περισσότερο από το GPT-3.
Υπάρχουν ορισμένα καλά τεκμηριωμένα προβλήματα με αυτά τα υπερμεγέθη γλωσσικά μοντέλα, συμπεριλαμβανομένου του ότι μπορούν να παρακινηθούν να παράγουν τοξική γλώσσα. Αλλά ένα άλλο τεράστιο ελάττωμα είναι ότι τείνουν να παράγουν ανακριβείς πληροφορίες σε απάντηση πραγματικών ερωτήσεων.
Για παράδειγμα, ζητήστε από το GPT-3 να προσθέσει δύο συν δύο, και θα σας πει με σιγουριά τέσσερα, αλλά ζητήστε του να προσθέσει αρκετούς τετραψήφιους και πενταψήφιους αριθμούς, και πιθανότατα θα σας δώσει εξίσου με σιγουριά λάθος απάντηση. Ρωτήστε τον ποιος είναι ο καιρός στη Νέα Υόρκη αυτή τη στιγμή, και θα σας απαντήσει, αλλά πιθανότατα θα είναι η θερμοκρασία στη Νέα Υόρκη όποτε τα δεδομένα από το AccuWeather αντλήθηκαν στο σύνολο εκπαίδευσής του, όχι ο σημερινός καιρός. Το ίδιο πρόβλημα ισχύει για ερωτήσεις σχετικά με τρέχοντα γεγονότα ή ακόμα και επιστήμη. Και επειδή αυτά τα μεγάλα γλωσσικά μοντέλα είναι τόσο μεγάλα, είναι εξαιρετικά ακριβά να εκπαιδευτούν—στα εκατομμύρια δολάρια—οπότε δεν είναι πρακτικό να ενημερώνονται συνεχώς για να διασφαλιστεί ότι τα δεδομένα τους είναι επίκαιρα.
Αυτό είναι το πρόβλημα που το AI21 Labs επιχείρησε να λύσει με το MRKL (έγραψα για μία από τις προηγούμενες καινοτομίες του εργαστηρίου εδώ). Αυτό μας φέρνει στην τρίτη μεγάλη τάση που εκπροσωπεί το MRKL: το MRKL είναι ένα υβριδικό σύστημα. Δεν χρησιμοποιεί μόνο βαθιά μάθηση, τη μέθοδο Τ.Ν. που είναι υπεύθυνη για τα περισσότερα μεγάλα άλματα προόδου στην τεχνολογία την τελευταία δεκαετία. Αντίθετα, συνδυάζει διαφορετικές μονάδες, ορισμένες από τις οποίες χρησιμοποιούν βαθιά μάθηση, και ορισμένες χρησιμοποιούν μια παλαιότερη μορφή Τ.Ν., τη συμβολική συλλογιστική, για να παρέχουν ακριβείς, ενημερωμένες απαντήσεις σε πραγματικές ερωτήσεις.
Το έξυπνο στοιχείο του MRKL είναι μια μονάδα που ονομάζεται δρομολογητής, η οποία λαμβάνει μια ερώτηση από έναν χρήστη και καταλαβαίνει τι είδους πληροφορίες αναζητά ο χρήστης. Αν η ερώτηση αφορά μαθηματικά, στέλνει αυτή την ερώτηση σε έναν απλό, παλιομοδίτικο επιστημονικό υπολογιστή. Αν αφορά συναλλαγματικές ισοτιμίες, την κατευθύνει σε έναν μετατροπέα νομισμάτων. Αν αφορά τον καιρό, την στέλνει σε έναν ιστότοπο πρόγνωσης. Υπάρχουν 55 τέτοιες εξειδικευμένες μονάδες εργασιών που υποστηρίζει αυτή τη στιγμή το MRKL, σύμφωνα με τον Shoham. Αν ο δρομολογητής δεν είναι σίγουρος ποια μονάδα είναι η καλύτερη, καλεί το Jurassic-1. Το Jurassic βοηθά επίσης στη σύνθεση της γλώσσας πλαισίου γύρω από την απάντηση του MRKL.
Μια άλλη έξυπνη καινοτομία εδώ είναι ο τρόπος με τον οποίο το AI21 Labs μπορεί να αντλήσει το σωστό είδος απάντησης από το Jurassic. Το κάνει αυτό με μια μέθοδο που ονομάζεται «ρύθμιση προτροπής» (prompt tuning), στην οποία ο τρόπος που μια αρχική ερώτηση ή απόσπασμα κειμένου τροφοδοτείται στο υπερμεγέθες γλωσσικό μοντέλο βοηθά να καθοριστεί η φύση της εξόδου. Είναι ένας τρόπος προσαρμογής της Τ.Ν. για ένα συγκεκριμένο είδος εργασίας χωρίς να χρειάζεται να τη βελτιστοποιήσεις με πρόσθετα δεδομένα εκπαίδευσης. Το πρόβλημα με την πρόσθετη εκπαίδευση είναι ότι καθώς το σύστημα βελτιώνεται σε μία στενή εργασία, στην πραγματικότητα χειροτερεύει σε άλλες. Οι ερευνητές αποκαλούν αυτό το πρόβλημα «καταστροφική λήθη».
Ορισμένοι ερευνητές Τ.Ν. ξεπερνούν την καταστροφική λήθη εκπαιδεύοντας το μοντέλο για μια ποικιλία διαφορετικών εργασιών ταυτόχρονα, αλλά αυτό απαιτεί πολλή υπολογιστική ισχύ, χρόνο και χρήμα. Η ρύθμιση προτροπής αποφεύγει αυτό. Η καινοτομία του AI21 Labs με το MRKL είναι η δημιουργία μικρών μονάδων βαθιάς μάθησης που μπορούν αυτόματα να ρυθμίζουν τις προτροπές του Jurassic εν κινήσει, λαμβάνοντας το ερώτημα ενός χρήστη και συνθέτοντας το καλύτερο σύνολο προτροπών για να ωθήσουν το Jurassic να παράγει απαντήσεις στο σωστό ύφος και μορφή.
Και με αυτό, ακολουθεί το υπόλοιπο των ειδήσεων αυτής της εβδομάδας στην Τ.Ν.
Jeremy Kahn
@jeremyakahn
[email protected]
Αυτή η ιστορία δημοσιεύτηκε αρχικά στο Fortune.com


