Η ακρίβεια στην επικοινωνία με την τεχνητή νοημοσύνη αποτελούσε ανέκαθεν ένα από τα μεγαλύτερα στοιχήματα για τους τεχνολογικούς κολοσσούς. Μέχρι σήμερα, η προσπάθεια να εξηγήσεις σε ένα chatbot ποιο ακριβώς σημείο μιας φωτογραφίας θέλεις να τροποποιήσεις κατέληγε συχνά σε ένα παιχνίδι λέξεων, γεμάτο παρεξηγήσεις και ατελείωτα «prompts». Η Google φαίνεται πως αποφάσισε να δώσει λύση, δοκιμάζοντας μια νέα, εξαιρετικά πρακτική λειτουργία στο Gemini: τη δυνατότητα να ζωγραφίζεις απευθείας πάνω στις εικόνες που ανεβάζεις.
Η συγκεκριμένη εξέλιξη, η οποία έρχεται να επιβεβαιώσει διαρροές που κυκλοφορούσαν τους προηγούμενους μήνες, εντοπίστηκε στην έκδοση beta της εφαρμογής Google (v16.49.59) για Android, αλλά και στη web έκδοση μέσω Chrome. Δεν πρόκειται απλώς για ένα ακόμη φίλτρο ή εφέ, αλλά για ένα εργαλείο «υπόδειξης» που γεφυρώνει το χάσμα ανάμεσα στην ανθρώπινη πρόθεση και την ψηφιακή εκτέλεση.
Η λειτουργία είναι απλή στη σύλληψη, αλλά ισχυρή στην εφαρμογή. Όταν ο χρήστης επισυνάπτει μια φωτογραφία στο Gemini, πλέον έχει στη διάθεσή του μια διεπαφή σχεδίασης. Εκεί, μπορεί να κυκλώσει συγκεκριμένα αντικείμενα, να τραβήξει γραμμές ή να γράψει χειρόγραφες σημειώσεις πάνω στην εικόνα προτού πατήσει αποστολή.
Αυτό αλλάζει ριζικά τον τρόπο αλληλεπίδρασης. Αντί να πληκτρολογείτε μακροσκελείς περιγραφές όπως «αφαίρεσε το άτομο που βρίσκεται πίσω αριστερά δίπλα στο δέντρο», μπορείτε απλώς να κυκλώσετε το συγκεκριμένο πρόσωπο. Το Gemini αντιλαμβάνεται το οπτικό σήμα ως μέρος της εντολής, καταλαβαίνοντας ακριβώς πού να εστιάσει την επεξεργαστική του ισχύ.
Η χρησιμότητα του εργαλείου επεκτείνεται σε δύο βασικούς άξονες: την επεξεργασία και την πληροφόρηση.
Στον τομέα της δημιουργικής επεξεργασίας (generative editing), ο χρήστης αποκτά τον απόλυτο έλεγχο της σύνθεσης. Θέλετε να προσθέσετε ένα αντικείμενο σε ένα συγκεκριμένο σημείο; Κυκλώστε την περιοχή και ζητήστε «πρόσθεσε εδώ ένα πουλί να πετάει». Η AI δεν θα μαντέψει τυχαία το σημείο τοποθέτησης, αλλά θα σεβαστεί τα όρια που θέσατε εικαστικά.
Στον τομέα της ανάλυσης εικόνας (visual understanding), η λειτουργία λύνει το πρόβλημα της ασάφειας σε πολύπλοκες φωτογραφίες. Σε μια εικόνα γεμάτη πρόσωπα ή αντικείμενα, μπορείτε να κυκλώσετε έναν συγκεκριμένο άνθρωπο – ίσως κάποια διασημότητα ή ιστορικό πρόσωπο – και να ρωτήσετε «ποιος είναι αυτός;». Το σύστημα απομονώνει την πληροφορία εντός του κύκλου και απαντά στοχευμένα, αγνοώντας τον υπόλοιπο θόρυβο της εικόνας.
Η κίνηση αυτή της Google εντάσσεται σε μια ευρύτερη στρατηγική που στοχεύει να κάνει τα μοντέλα AI πιο διαισθητικά. Έχουμε ήδη δει παρόμοια βήματα με το “conversational editing” στο Google Photos, όπου η επεξεργασία γίνεται μέσω φυσικής γλώσσας. Τώρα, το Gemini κάνει το επόμενο βήμα συνδυάζοντας το σκίτσο με τον λόγο (multimodal input).
Αυτή η προσέγγιση είναι κρίσιμη για την εξέλιξη των εργαλείων τεχνητής νοημοσύνης. Οι χρήστες συχνά δυσκολεύονται να μεταφράσουν οπτικές σκέψεις σε λέξεις. Δίνοντας τη δυνατότητα χειροκίνητης παρέμβασης, η Google μειώνει την πνευματική προσπάθεια που απαιτείται για τη δημιουργία του τέλειου prompt. Είναι μια επιστροφή στα βασικά: το δάχτυλο που δείχνει είναι ο πιο αρχέγονος και άμεσος τρόπος υπόδειξης.
Για τους δημιουργούς περιεχομένου και τους επαγγελματίες του SEO, τέτοιες λειτουργίες ανοίγουν νέους δρόμους. Η δυνατότητα ακριβούς επεξεργασίας σημαίνει ταχύτερη παραγωγή πρωτότυπου οπτικού υλικού για άρθρα και social media, χωρίς την ανάγκη περίπλοκου λογισμικού όπως το Photoshop για απλές διορθώσεις.
Επιπλέον, καθώς οι μηχανές αναζήτησης και τα AI bots (όπως το Search Generative Experience της Google) γίνονται καλύτερα στο να «διαβάζουν» εικόνες, η ακρίβεια του περιεχομένου που παράγεται με τη βοήθεια τέτοιων εργαλείων θα παίξει ρόλο στην κατάταξη. Μια εικόνα που έχει τροποποιηθεί με ακρίβεια για να ταιριάζει απόλυτα στο κείμενο ενός άρθρου είναι πιθανό να έχει καλύτερη απόδοση από μια γενική, τυχαία εικόνα stock.
Προς το παρόν, η λειτουργία markup εμφανίζεται σταδιακά σε χρήστες που τρέχουν την beta έκδοση της εφαρμογής Google, ενώ αναφορές επιβεβαιώνουν την παρουσία της και στο περιβάλλον desktop. Όπως συμβαίνει συνήθως με τα A/B tests της εταιρείας, η καθολική διάθεση ενδέχεται να πάρει λίγο χρόνο, καθώς συλλέγονται δεδομένα για τη σωστή ανταπόκριση του μοντέλου στα σχέδια των χρηστών.
