EMO της Alibaba: επανάσταση στα βίντεο που μιλούν και τραγουδούν

7 Μαρτίου 2024

By aurora

Πρόσφατα, οι ειδικοί του Ινστιτούτου Ευφυούς Υπολογισμού της Alibaba ανέπτυξαν ένα νέο σύστημα τεχνητής νοημοσύνης με την ονομασία“EMO“. Αυτό το σύστημα είναι σε θέση να κινεί μια απλή φωτογραφία πορτρέτου και να δημιουργεί βίντεο στα οποία το πρόσωπο στη φωτογραφία μιλάει ή τραγουδάει με εκπληκτικά ρεαλιστικό τρόπο.

Πώς λειτουργεί το EMO

Το σύστημα EMO χρησιμοποιεί ένα μοντέλο διάχυσης τεχνητής νοημοσύνης, το οποίο έχει επιδείξει μια αξιοσημείωτη ικανότητα να παράγει ρεαλιστικές συνθετικές εικόνες. Οι ειδικοί της Alibaba εκπαίδευσαν το μοντέλο σε ένα μεγάλο σύνολο δεδομένων με πάνω από 250 ώρες βίντεο με ανθρώπους που μιλούν, από ομιλίες, ταινίες, τηλεοπτικές εκπομπές και τραγουδιστικές παραστάσεις.

Σε αντίθεση με τις παραδοσιακές μεθόδους που βασίζονται σε τρισδιάστατα μοντέλα προσώπου ή σε ανάμειξη σχημάτων για την προσέγγιση των κινήσεων του προσώπου, το EMO μετατρέπει απευθείας το ηχητικό κύμα σε καρέ βίντεο. Αυτό καθιστά δυνατή τη σύλληψη λεπτών κινήσεων και ιδιαιτεροτήτων συγκεκριμένης ταυτότητας που σχετίζονται με τη φυσική γλώσσα.

Πλεονεκτήματα της EMO

ΗEMO αποτελεί σημαντικό βήμα προς τα εμπρός στη δημιουργία βίντεο με ηχητική καθοδήγηση ανθρώπων που μιλούν. Σύμφωνα με τα πειράματα που περιγράφονται στην ερευνητική τους εργασία, η EMO ξεπερνά σημαντικά τις υπάρχουσες μεθόδους όσον αφορά την ποιότητα του βίντεο, τη διατήρηση της ταυτότητας και την εκφραστικότητα.

Οι ερευνητές της Alibaba διεξήγαγαν επίσης μια μελέτη χρηστών που έδειξε ότι τα βίντεο που παράγονται από το EMO είναι πιο φυσικά και συναισθηματικά από εκείνα που παράγονται από άλλα συστήματα.

Παραγωγή βίντεο με ανθρώπους που τραγουδούν

Εκτός από τα βίντεο συνομιλίας, το EMO μπορεί επίσης να εμψυχώσει πορτραίτα ανθρώπων που τραγουδούν, δημιουργώντας κατάλληλες κινήσεις του στόματος και υποβλητικές εκφράσεις του προσώπου συγχρονισμένες με το τραγούδι. Το σύστημα μπορεί να παράγει βίντεο για αυθαίρετη διάρκεια ανάλογα με τη διάρκεια του ήχου εισόδου.

Τα πειραματικά αποτελέσματα δείχνουν ότι το EMO είναι σε θέση να παράγει όχι μόνο πειστικά βίντεο ανθρώπων που μιλούν, αλλά και βίντεο ανθρώπων που τραγουδούν σε διάφορα στυλ, ξεπερνώντας σημαντικά τις υπάρχουσες μεθοδολογίες από άποψη εκφραστικότητας και ρεαλισμού.

Ηθικές επιπτώσεις

Παρά την αξιοσημείωτη πρόοδο που επιτεύχθηκε από την EMO και παρόμοιες τεχνολογίες, υπάρχουν ηθικές επιπτώσεις που πρέπει να ληφθούν υπόψη. Η δυνατότητα σύνθεσης εξατομικευμένου περιεχομένου βίντεο από μια απλή φωτογραφία και ένα απόσπασμα ήχου εγείρει ανησυχίες σχετικά με την κατάχρηση αυτής της τεχνολογίας για την υποδυόμενη ανθρώπους χωρίς τη συγκατάθεσή τους ή τη διάδοση παραπληροφόρησης.

Οι εμπειρογνώμονες της Alibaba δηλώνουν ότι σχεδιάζουν να διερευνήσουν μεθόδους για την ανίχνευση συνθετικών βίντεο, προκειμένου να αντιμετωπίσουν την πιθανή εξάπλωση ψεύτικου περιεχομένου.