Μια νέα τεχνική ΑΙ της Google μεγενθύνει και βελτιώνει την ποιότητα εικόνων

Το εργαλείο αυτό θα φανεί χρήσιμο στους παραγωγούς ταινιών

spot_img

Ίσως έχετε δει ταινίες επιστημονικής φαντασίας ή τηλεοπτικές εκπομπές όπου ο πρωταγωνιστής ζητά να μεγεθύνει μια εικόνα και να βελτιώσει τα αποτελέσματα-αποκαλύπτοντας ένα πρόσωπο, μια πινακίδα ή οποιαδήποτε άλλη βασική λεπτομέρεια-και τις νεότερες μηχανές τεχνητής νοημοσύνης της Google, βασισμένες σε αυτό που είναι γνωστό ως μοντέλα διάχυσης, είναι σε θέση να βγάλουν αυτό το τέχνασμα.

Είναι μια δύσκολη διαδικασία, γιατί ουσιαστικά αυτό που συμβαίνει είναι ότι προστίθενται λεπτομέρειες εικόνας που η κάμερα δεν είχε καταγράψει αρχικά, χρησιμοποιώντας μερικές εξαιρετικά έξυπνες εικασίες βασισμένες σε άλλες εικόνες παρόμοιας εμφάνισης.

- Advertisement -

Η τεχνική ονομάζεται φυσική σύνθεση εικόνας από την Google και σε αυτό το συγκεκριμένο σενάριο, υπερ-ανάλυση εικόνας. Ξεκινάτε με μια μικρή, μπλοκαρισμένη, pixelated φωτογραφία και καταλήγετε σε κάτι ευκρινές, καθαρό και φυσικό. Μπορεί να μην ταιριάζει ακριβώς με το πρωτότυπο, αλλά είναι αρκετά κοντά για να φαίνεται αληθινό σε ένα ζευγάρι ανθρώπινα μάτια. Η Google παρουσίασε στην πραγματικότητα δύο νέα εργαλεία AI για τη δουλειά. Το πρώτο ονομάζεται SR3, ή Super-Resolution μέσω Επαναλαμβανόμενης βελτίωσης, και λειτουργεί προσθέτοντας θόρυβο σε μια εικόνα και στη συνέχεια αντιστρέφοντας τη διαδικασία και αφαιρώντας την-όσο κι αν ένας επεξεργαστής εικόνας μπορεί να προσπαθήσει να ενισχύσει τα στιγμιότυπα των διακοπών σας.

“Τα μοντέλα διάχυσης καταστρέφουν τα δεδομένα της εκπαίδευσης προσθέτοντας σταδιακά θόρυβο Gauss, σκουπίζοντας σιγά σιγά λεπτομέρειες στα δεδομένα μέχρι να γίνει καθαρός θόρυβος και στη συνέχεια εκπαιδεύοντας ένα νευρωνικό δίκτυο για να αντιστρέψει αυτή τη διαδικασία διαφθοράς”, εξηγούν ο ερευνητής Jonathan Ho και ο μηχανικός λογισμικού Chitwan. Saharia από την Έρευνα Google.

Μέσα από μια σειρά υπολογισμών πιθανοτήτων βασισμένων σε μια τεράστια βάση δεδομένων εικόνων και κάποια μαγική μηχανική εκμάθηση, το SR3 είναι σε θέση να φανταστεί πώς μοιάζει μια έκδοση πλήρους ανάλυσης μιας αποκλεισμένης εικόνας χαμηλής ανάλυσης.

Το δεύτερο εργαλείο είναι το CDM, ή Cascaded Diffusion Models. Η Google τις περιγράφει ως “αγωγούς” μέσω των οποίων τα μοντέλα διάχυσης-συμπεριλαμβανομένου του SR3-μπορούν να κατευθυνθούν για αναβαθμίσεις ανάλυσης εικόνας υψηλής ποιότητας. Παίρνει τα μοντέλα βελτίωσης και βγάζει μεγαλύτερες εικόνες από αυτό, και η Google έχει δημοσιεύσει ένα έγγραφο και για αυτό. Χρησιμοποιώντας διαφορετικά μοντέλα βελτίωσης σε διαφορετικές αναλύσεις, η προσέγγιση CDM είναι σε θέση να νικήσει τις εναλλακτικές μεθόδους για την αναβάθμιση των εικόνων, λέει η Google. Ο νέος κινητήρας τεχνητής νοημοσύνης δοκιμάστηκε στο ImageNet, μια γιγαντιαία βάση δεδομένων με εκπαιδευτικές εικόνες που χρησιμοποιούνται συνήθως για την οπτική έρευνα αναγνώρισης αντικειμένων.

Subscribe
Notify of
guest
0 Comments
Inline Feedbacks
View all comments

More News

Support Us

Αν το επιθυμείτε, μπορείτε να μας βοηθήσετε κάνοντας εγγραφή σε μια από τις συνδρομές που θα βρείτε στο "Support Us" πάνω στο menu ή πατώντας το παρακάτω κουμπί. Ευχαριστούμε!

More From Author

0
Would love your thoughts, please comment.x
()
x