AI21 Labs: Ένα νέο μοντέλο τεχνητής νοημοσύνης ικανό να χειριστεί περισσότερα συμφραζόμενα από τα περισσότερα

5 Απριλίου 2024

By aurora

Ο κλάδος της τεχνητής νοημοσύνης κινείται όλο και περισσότερο προς γεννητικά μοντέλα με ευρύτερα συμφραζόμενα. Ωστόσο, τα μοντέλα με ευρύ πλαίσιο τείνουν να είναι εντατικά σε υπολογισμούς. Ο Or Dagan, διευθυντής προϊόντων στην νεοφυή εταιρεία τεχνητής νοημοσύνης AI21 Labs, υποστηρίζει ότι αυτό δεν χρειάζεται να συμβαίνει, και η εταιρεία του κυκλοφορεί ένα παραγωγικό μοντέλο για να το αποδείξει.

Τα συμφραζόμενα, ή παράθυρα συμφραζομένων, αναφέρονται στα δεδομένα εισόδου (π.χ. κείμενο) που εξετάζει ένα μοντέλο πριν παράγει την έξοδο (περισσότερο κείμενο). Τα μοντέλα με μικρά παράθυρα πλαισίου τείνουν να ξεχνούν το περιεχόμενο ακόμη και πολύ πρόσφατων συνομιλιών, ενώ τα μοντέλα με μεγαλύτερα πλαίσια αποφεύγουν αυτό το πρόβλημα και, επιπλέον, κατανοούν καλύτερα τη ροή των δεδομένων που επεξεργάζονται.

Το νέο μοντέλο παραγωγής και ανάλυσης κειμένου της AI21 Labs, που ονομάζεται Jamba, μπορεί να εκτελέσει πολλές από τις ίδιες εργασίες με μοντέλα όπως το ChatGPT της OpenAI και το Gemini της Google. Εκπαιδευμένο με έναν συνδυασμό δημόσιων και ιδιόκτητων δεδομένων, το Jamba μπορεί να γράφει κείμενα στα αγγλικά, γαλλικά, ισπανικά και πορτογαλικά.

Ένα μοναδικό χαρακτηριστικό του Jamba είναι η ικανότητά του να διαχειρίζεται έως και 140.000 μάρκες με μία μόνο GPU με τουλάχιστον 80 GB μνήμης, όπως μια ισχυρή Nvidia A100. Αυτό αντιστοιχεί σε περίπου 105.000 λέξεις ή 210 σελίδες, ένα επαρκές μέγεθος για ένα μυθιστόρημα μεγάλου μεγέθους.

Συγκριτικά, το Llama 2 της Meta έχει ένα παράθυρο πλαισίου 32.000 tokens, ένα μικρότερο μέγεθος με τα σημερινά πρότυπα, αλλά απαιτεί μόνο μια GPU με περίπου 12 GB μνήμης για να τρέξει. (Τα παράθυρα πλαισίου συνήθως μετρώνται σε tokens, τα οποία είναι τμήματα ακατέργαστου κειμένου και άλλων δεδομένων).

Με την πρώτη ματιά, η Jamba μπορεί να φαίνεται σαν ένα συνηθισμένο μοντέλο. Υπάρχουν πολλά ελεύθερα διαθέσιμα και κατεβάσιμα μοντέλα γεννητικής τεχνητής νοημοσύνης, όπως το πρόσφατα κυκλοφορήσαν DBRX της Databricks και το προαναφερθέν Llama 2.

Αυτό που κάνει το Jamba μοναδικό είναι αυτό που κρύβεται κάτω από το καπό του. Χρησιμοποιεί έναν συνδυασμό δύο αρχιτεκτονικών μοντέλων: μετασχηματιστές και μοντέλα χώρου καταστάσεων (SSM).

Οι μετασχηματιστές είναι η προτιμώμενη αρχιτεκτονική για σύνθετες εργασίες συλλογισμού και τροφοδοτούν μοντέλα όπως το GPT-4 και το προαναφερθέν Google Gemini. Έχουν αρκετά μοναδικά χαρακτηριστικά, αλλά το χαρακτηριστικό που διακρίνει τους μετασχηματιστές είναι αναμφίβολα ο“μηχανισμός προσοχής” τους. Για κάθε κομμάτι δεδομένων εισόδου (π.χ. μια πρόταση), οι μετασχηματιστές“ζυγίζουν” τη συνάφεια κάθε άλλης εισόδου (άλλες προτάσεις) και αντλούν από αυτές για να παράγουν την έξοδο (μια νέα πρόταση).

Οι SSM, από την άλλη πλευρά, συνδυάζουν διαφορετικές ιδιότητες παλαιότερων τύπων μοντέλων τεχνητής νοημοσύνης, όπως τα επαναλαμβανόμενα νευρωνικά δίκτυα και τα νευρωνικά δίκτυα συνελίξεων, για να δημιουργήσουν μια πιο αποδοτική από υπολογιστική άποψη αρχιτεκτονική, ικανή να χειρίζεται μεγάλες ακολουθίες δεδομένων.

Τα SSM έχουν τους περιορισμούς τους. Ωστόσο, ορισμένες πρώιμες ενσαρκώσεις, συμπεριλαμβανομένου ενός μοντέλου ανοικτού κώδικα που ονομάζεται Mamba και αναπτύχθηκε από ερευνητές στο Princeton και το Carnegie Mellon, μπορούν να χειριστούν μεγαλύτερες εισόδους από τις αντίστοιχες που βασίζονται σε μετασχηματιστές και να τις ξεπεράσουν σε εργασίες δημιουργίας γλωσσών.

Το Jamba χρησιμοποιεί στην πραγματικότητα το Mamba ως μέρος του βασικού μοντέλου, και ο Dagan λέει ότι προσφέρει τριπλάσια απόδοση σε μεγάλα συμφραζόμενα σε σύγκριση με μοντέλα που βασίζονται σε μετασχηματιστές συγκρίσιμου μεγέθους.

‘Αν και υπάρχουν κάποια πρώιμα ακαδημαϊκά παραδείγματα μοντέλων SSM, αυτό είναι το πρώτο μοντέλο παραγωγής εμπορικού βαθμού,’

δήλωσε ο Dagan σε συνέντευξή του στο TechCrunch.

“Αυτή η αρχιτεκτονική, εκτός του ότι είναι καινοτόμος και ενδιαφέρουσα για περαιτέρω έρευνα από την κοινότητα, ανοίγει μεγάλες δυνατότητες για την αποδοτικότητα και την απόδοση“.

Αν και το Jamba έχει κυκλοφορήσει με την άδεια Apache 2.0, μια άδεια ανοιχτού κώδικα με λίγους περιορισμούς στη χρήση, ο Dagan τονίζει ότι πρόκειται για μια έκδοση για ερευνητικούς σκοπούς και δεν προορίζεται για εμπορική χρήση. Το μοντέλο δεν διαθέτει διασφαλίσεις για την αποτροπή της δημιουργίας τοξικών κειμένων ή μετριασμούς για την αντιμετώπιση πιθανών προκαταλήψεων- μια βελτιωμένη και υποτίθεται πιο “ασφαλής” έκδοση θα διατεθεί τις επόμενες εβδομάδες.

Ωστόσο, ο Dagan λέει ότι η Jamba καταδεικνύει ήδη τις δυνατότητες της αρχιτεκτονικής SSM ακόμη και σε αυτό το πρώιμο στάδιο.

“Τοιδιαίτερο σε αυτό το μοντέλο, τόσο από την άποψη του μεγέθους του όσο και από την καινοτόμο αρχιτεκτονική του, είναι ότι μπορεί εύκολα να προσαρμοστεί σε μία μόνο GPU“,”

δήλωσε.

“Πιστεύουμε ότι οι επιδόσεις θα βελτιωθούν περαιτέρω με περαιτέρω βελτιστοποιήσεις της Mamba“.

Οφέλη των μοντέλων τεχνητής νοημοσύνης με ευρύ πλαίσιο

Καθώς ο κλάδος της τεχνητής νοημοσύνης συνεχίζει να εξελίσσεται, κινείται όλο και περισσότερο προς την υιοθέτηση γεννητικών μοντέλων με ευρύτερο πλαίσιο. Αυτά τα μοντέλα, όπως το Jamba της AI21 Labs, επιτρέπουν τη συνεκτίμηση περισσότερων πληροφοριών πριν από τη δημιουργία της επιθυμητής εξόδου.

Τα μοντέλα με ευρύ πλαίσιο έχουν αρκετά πλεονεκτήματα σε σχέση με εκείνα με μικρότερα παράθυρα πλαισίου. Πρώτον, τα μοντέλα με ευρύ πλαίσιο έχουν μεγαλύτερη ικανότητα να κατανοούν και να αποθηκεύουν σημαντικές πληροφορίες από προηγούμενες συνομιλίες. Αυτό σημαίνει ότι το μοντέλο μπορεί να δημιουργήσει μια πιο συνεπή και ακριβή έξοδο, αποφεύγοντας τις επαναλήψεις ή τα λάθη λόγω έλλειψης πλαισίου.

Επιπλέον, τα μοντέλα με ευρύ πλαίσιο είναι σε θέση να αντιλαμβάνονται καλύτερα τη ροή των δεδομένων που εξετάζουν. Αυτό σημαίνει ότι μπορούν να κατανοήσουν καλύτερα το γενικό πλαίσιο και να δημιουργήσουν έξοδο που ταιριάζει καλύτερα στο συγκεκριμένο πλαίσιο στο οποίο χρησιμοποιείται.

Ένα πρακτικό παράδειγμα της χρησιμότητας των μοντέλων με ευρύ πλαίσιο είναι ο τομέας των chatbots. Τα chatbots που βασίζονται σε μοντέλα με ευρύ πλαίσιο μπορούν να κατανοήσουν καλύτερα τις προηγούμενες συνομιλίες και να απαντήσουν με μεγαλύτερη ακρίβεια και συνέπεια στις ερωτήσεις των χρηστών. Αυτό οδηγεί σε μια καλύτερη και πιο ικανοποιητική εμπειρία χρήστη.

Επιπλέον, τα μοντέλα με ευρύ πλαίσιο μπορούν να χρησιμοποιηθούν σε διάφορους τομείς και εφαρμογές. Για παράδειγμα, μπορούν να χρησιμοποιηθούν για την αυτόματη παραγωγή κειμένων, τη μετάφραση από τη μία γλώσσα στην άλλη, τη δημιουργία ρεαλιστικών διαλόγων για βιντεοπαιχνίδια ή ταινίες και πολλά άλλα.

Jamba: οι δυνατότητες των μοντέλων SSM

Μια ενδιαφέρουσα πτυχή του μοντέλου Jamba της AI21 Labs είναι η χρήση ενός συνδυασμού δύο αρχιτεκτονικών μοντέλων: μετασχηματιστές και μοντέλα χώρου καταστάσεων (SSM). Οι μετασχηματιστές είναι γνωστό ότι είναι πολύ αποτελεσματικοί σε πολύπλοκες εργασίες συλλογισμού, ενώ τα SSM είναι σε θέση να χειριστούν μεγαλύτερες ακολουθίες δεδομένων.

Η συνδυασμένη χρήση αυτών των δύο αρχιτεκτονικών επιτρέπει στην Jamba να έχει το καλύτερο και από τους δύο κόσμους. Οι μετασχηματιστές παρέχουν δυνατότητες σύνθετης συλλογιστικής, όπως ανάλυση περιβάλλοντος και δημιουργία συνεκτικού κειμένου, ενώ οι SSM επιτρέπουν το χειρισμό μεγαλύτερων ακολουθιών δεδομένων χωρίς να θυσιάζεται η απόδοση.

Αυτή η υβριδική προσέγγιση έχει αποδειχθεί ότι προσφέρει τριπλάσια απόδοση σε μακρά συμφραζόμενα σε σύγκριση με μοντέλα συγκρίσιμου μεγέθους μόνο με μετασχηματιστές. Αυτό σημαίνει ότι το Jamba είναι σε θέση να παράγει συνεπές κείμενο υψηλής ποιότητας σε μεγάλες ακολουθίες δεδομένων, προσφέροντας σημαντικό πλεονέκτημα έναντι άλλων μοντέλων που διατίθενται στην αγορά.

Πηγή του άρθρου εδώ.