Όταν ο Gemini 3 Flash δεν ξέρει την απάντηση, απλά την επινοεί.

Όταν ο Gemini 3 Flash δεν ξέρει την απάντηση, απλά την επινοεί.

Gemini 3 Flash είναι ένα μοντέλο της γρήγορης και έξυπνη τεχνητή νοημοσύνη. Αλλά, σύμφωνα με μια αξιολόγηση που γίνεται από μια ανεξάρτητη ομάδα δοκιμών, αν τους ρωτήσετε κάτι που δεν ξέρει πραγματικά είναι ακατανόητη, δύσκολη ή από τη γνώση του θα προσπαθήσει σχεδόν πάντα [...]

Αλλά, σύμφωνα με μια αξιολόγηση που γίνεται από μια ανεξάρτητη ομάδα δοκιμών, αν τους ρωτήσετε κάτι για το οποίο δεν γνωρίζει πραγματικά, σκληρά ή από τη γνώση του, θα προσπαθήσει σχεδόν πάντα να ανταποκριθεί με το ψέμα ή την εφεύρεση κάτι.

Στις εξετάσεις του “ο βαθμός των ψευδαισθήσεων” (ποσοστό αναγνώρισης) στην καταχώρηση του Benchmark AA @Omniscience, το Gemini 3 Flash έφτασε στο 91 τοις εκατό, πράγμα που σημαίνει ότι ακόμα και όταν δεν υπήρχε σωστή απάντηση, απάντησε ούτως ή άλλως, και συχνά ήταν εντελώς επινοημένο.

Αυτό το φαινόμενο του “είναι ένα γνωστό πρόβλημα στα πρότυπα παραγωγής κειμένου: το να ξέρεις πότε να σταματάς και να λες “δεν ξέρει” είναι τόσο σημαντικό όσο το να ξέρεις πώς να απαντήσεις. Σύμφωνα με αυτό το τεστ, οι Δίδυμοι δεν το κάνουν αυτό πολύ καλά, αναφέρει Τηλεγραφία, εκπομπή Περισκόπιο.

Αυτό όμως δεν σημαίνει ότι το 91 τοις εκατό των απαντήσεών του είναι λάθος. Αυτός ο αριθμός δείχνει πόσο συχνά επινοεί κάτι σε καταστάσεις όπου η πραγματική απάντηση θα ήταν “δεν ξέρει”.

Αν και ο Gemini 3 Flash μπορεί να είναι πολύ ισχυρός και να εκτελεί καλά σε γενικές δοκιμές, έχει μεγάλη αυτοπεποίθηση ακόμη και όταν πρέπει να προσέχει ότι μπορεί να είναι πρόβλημα σε σοβαρή χρήση. /Περισκόπιο

Related
Η Βρετανία χρησιμοποιεί τεχνητή νοημοσύνη για να επαληθεύσει την ηλικία των αιτούντων άσυλο

Η Βρετανία χρησιμοποιεί τεχνητή νοημοσύνη για να επαληθεύσει την ηλικία των αιτούντων άσυλο

Καλά νέα από το YouTube: Βίντεο με τεχνητή νοημοσύνη θα φέρουν σαφή ετικέτα

Καλά νέα από το YouTube: Βίντεο με τεχνητή νοημοσύνη θα φέρουν σαφή ετικέτα

Η ΕΕ επιβάλλει πρόστιμο στον Κινέζο γίγαντα Temu στα 200 εκατομμύρια ευρώ για επικίνδυνα παιδικά παιχνίδια και κατεστραμμένους φορτιστές

Η ΕΕ επιβάλλει πρόστιμο στον Κινέζο γίγαντα Temu στα 200 εκατομμύρια ευρώ για επικίνδυνα παιδικά παιχνίδια και κατεστραμμένους φορτιστές

Το Διαδίκτυο έχει μερικώς αποκατασταθεί στο Ιράν, λέει ο επίσκοπος οργάνωσης

Το Διαδίκτυο έχει μερικώς αποκατασταθεί στο Ιράν, λέει ο επίσκοπος οργάνωσης

Η Ferrari αντιπροσωπεύει το πρώτο ηλεκτρικό αυτοκίνητο, κοστίζει 640.000 δολάρια.

Η Ferrari αντιπροσωπεύει το πρώτο ηλεκτρικό αυτοκίνητο, κοστίζει 640.000 δολάρια.

Ο Στελλάντης παρουσιάζει φιλόδοξο σχέδιο για νέα μοντέλα

Ο Στελλάντης παρουσιάζει φιλόδοξο σχέδιο για νέα μοντέλα

Γιατί δεν σκουριάζει ο χρυσός; Οι επιστήμονες ανιχνεύουν “ατομική λογική” μετά την αντοχή του πολύτιμου μετάλλου

Γιατί δεν σκουριάζει ο χρυσός; Οι επιστήμονες ανιχνεύουν “ατομική λογική” μετά την αντοχή του πολύτιμου μετάλλου

Ο Μασκ χάνει τη μάχη για τον έλεγχο του OpenAI, το δικαστήριο δίνει δικαιοσύνη στον Άλτμαν.

Ο Μασκ χάνει τη μάχη για τον έλεγχο του OpenAI, το δικαστήριο δίνει δικαιοσύνη στον Άλτμαν.

Mercedes - AMG ανακάλυψε το πρώτο τετράθυρο ηλεκτρικό θησαυροφυλάκιο

Mercedes - AMG ανακάλυψε το πρώτο τετράθυρο ηλεκτρικό θησαυροφυλάκιο

Αυτό το μοντέλο Toyota αποτυγχάνει στις δοκιμές ασφάλειας

Αυτό το μοντέλο Toyota αποτυγχάνει στις δοκιμές ασφάλειας

Το πιλοτικό ρομπότ “mecha” εμφανίζεται στην αγορά

Το πιλοτικό ρομπότ “mecha” εμφανίζεται στην αγορά

Το Bitcoin πέφτει κάτω από 77.000 δολάρια.

Το Bitcoin πέφτει κάτω από 77.000 δολάρια.

Το Instagram άσκησε κριτική για τις περιστάσεις “

Το Instagram άσκησε κριτική για τις περιστάσεις “