Manus vs Rudolf: Ho testato il nuovo agente AI cinese contro il nostro Hatchi specializzato

Nell'evoluzione del panorama AI, stiamo assistendo ad una crescente specializzazione degli Agenti AI. Da un lato gli agenti general-purpose che promettono di fare tutto, dall'altro gli agenti specializzati che eccellono in compiti specifici.

Oggi ho avuto l'opportunità di testare in prima persona questa distinzione, mettendo a confronto il nostro Rudolf, un Hatchi specializzato in analisi SEO, con Manus, l'agente AI general-purpose cinese che sta facendo parlare di sé in questi giorni.

Chi è Manus e perché ne parlano tutti

Manus è l'ultimo arrivato nel mondo degli agenti AI autonomi.

Sviluppato dalla startup cinese The Butterfly Effect, è stato presentato come un agente "completamente autonomo" capace di eseguire compiti complessi senza supervisione continua. A differenza dei chatbot tradizionali, Manus promette di non limitarsi a rispondere a domande, ma di pianificare ed eseguire azioni concrete navigando sul web, usando strumenti esterni e prendendo decisioni in autonomia.

introducing-manus-comp

La sua architettura sfrutta tecnologie esistenti come Claude di Anthropic e l'integrazione di 29 strumenti esterni che ne estendono le capacità. Ciò che lo distingue è la sua struttura multi-agente, dove diversi moduli specializzati collaborano sotto la direzione di un "agente esecutore" principale.

Ho ricevuto un invito anticipato per testare Manus e ho subito pensato di confrontarlo con il nostro Rudolf, uno degli Hatchi che abbiamo sviluppato in Servizi Multimediali.

rudolf-topic-suggest-hatchi-icone

L'obiettivo non è stabilire un vincitore, ma osservare come due approcci diversi affrontano lo stesso problema.

L'esperimento: stessa richiesta, approcci diversi

Ho sottoposto entrambi gli agenti alla stessa richiesta, un task che richiede ricerca, analisi e aggregazione dati:

"Cerca 3 pagine web, aggiornate nell'ultimo mese, sul tema 'Agenti AI specializzati'. Per ogni pagina analizza il contenuto per trovare keywords e rilevanza, frequenza e variazioni. Aggrega le keywords, poi filtrale per rilevanza. Solo per ogni keywords ottieni le metriche di ricerca dettagliate (volume di ricerca mensile, competizione e CPC). Non farlo per le variazioni. Aggrega tutti i risultati in una lista ordinata."

Mi aspetto di ricevere un elenco di keyword rilevanti con dati di volume di ricerca e CPC, una lista di keyword correlate e le fonti utilizzate.

Due stili a confronto

L'esperimento ha rivelato differenze interessanti non solo nel risultato finale, ma soprattutto nell'approccio.

Velocità ed esecuzione

La prima differenza lampante è stata la velocità: Rudolf ha completato il task in 1 minuto e 44 secondi, mentre Manus ha impiegato ben 11 minuti. Questa differenza significativa riflette la diversa architettura e approccio dei due agenti.

manus-ai-tasklist-comp

L'interfaccia di Manus è curata e simile a quella dei più noti chatbot AI, ma con un elemento distintivo: un pannello che mostra in tempo reale quali attività sta eseguendo, quali ha completato e quali deve ancora affrontare. Una vera e propria checklist visiva del lavoro in corso, che trovo molto comoda.

rudolf-hatchi-user-interface-comp

Rudolf, invece, presenta un'interfaccia più essenziale nella quale mostra in tempo reale il suo ragionamento e i tools che sta utilizzando per completare il compito.

All'utente interessa davvero vedere il ragionamento dell'agente, o preferisce semplicemente un risultato rapido e preciso?

Navigazione web: scenario vs efficienza

Il modo in cui i due agenti navigano sul web è forse la differenza più evidente.

Manus apre un browser e lo utilizza per visualizzare gli URL e leggere il contenuto delle pagine, simulando esattamente ciò che farebbe un umano. È affascinante osservare questa "performance", ma è anche più lenta.

manus-ai-browse-website-comp

Rudolf, invece, utilizza un approccio più chirurgico: sfrutta le API di Google per le ricerche e librerie specifiche Python per analizzare efficacemente il contenuto degli URL. Meno spettacolare visivamente, ma decisamente più veloce.

Durante l'esperimento, Manus ha incontrato un problema nell'accedere al terzo URL (un ostacolo comune, dato che molti siti bloccano questo tipo di accessi automatizzati). Tuttavia, questo non gli ha impedito di proseguire con il compito.

Gestione dei dati intermedi

Un aspetto notevole di Manus è la sua capacità di creare e rendere accessibili documenti intermedi durante l'esecuzione. Man mano che raccoglie e processa le informazioni, genera file che diventano disponibili al termine del compito. Questo approccio rende visibile l'intero processo e permette di riutilizzare i risultati intermedi.

Rudolf, invece, mantiene tutto il suo processo decisionale all'interno del suo ragionamento, mostrando solo il risultato finale.

La prova del nove: dati reali o simulati?

La parte più critica dell'incarico consisteva nell'ottenere metriche specifiche su volumi di ricerca, CPC e competizione per le keyword individuate.

Qui si è manifestata la differenza più significativa tra i due approcci.

Sorprendentemente, Manus ha scelto di scrivere un piccolo script Python per "simulare" queste metriche, invece di cercare e utilizzare uno dei tool gratuiti disponibili online. Ha poi presentato questi dati inventati come se fossero reali, senza avvisarmi della loro natura fittizia – un aspetto che mi ha lasciato sinceramente perplesso.

manus-ai-create-python-script-comp

Rudolf, al contrario, ha affrontato il compito in modo più professionale: ha utilizzato un tool specifico per dialogare con le API di Google Ads, sfruttando Google Ads Keyword Planner per ottenere metriche reali e aggiornate. La differenza è sostanziale: dati inventati vs dati reali.

Il risultato finale

Entrambi gli agenti hanno completato il compito fornendo il report richiesto, ma con differenze significative:

Manus ha prodotto un report molto organizzato e visivamente piacevole, con una tabella ordinata per volume di ricerca (inventato) e tutti i KPI richiesti (anch'essi inventati). Ha anche aggiunto sezioni non richieste ma apprezzate come "Analisi per categoria", "Keywords con Miglior Rapporto Opportunità", "Keywords Specifiche del Settore" e "Conclusioni". Un lavoro esteticamente impeccabile, ma basato su dati fittizi. Inoltre, non ha indicato le fonti direttamente nel report (sebbene fossero presenti nei documenti intermedi).

Rudolf ha fornito un output più essenziale ma concreto: una lista di keyword rilevanti con KPI reali, le varianti senza KPI come richiesto e le fonti utilizzate. Un approccio meno elaborato visivamente, ma basato su dati concreti e affidabili.

Questa esperienza conferma ciò che stiamo osservando nel nostro percorso con gli Hatchi: gli agenti AI "tuttofare" possono sembrare più versatili e impressionanti a prima vista, ma quando si tratta di ottenere risultati concreti in ambiti specifici, un agente specializzato come Rudolf offre precisione, affidabilità e velocità che un generale non può eguagliare.

È la differenza tra avere un consulente generico che conosce un po' di tutto e un esperto di settore che domina il suo campo specifico. Entrambi hanno il loro valore, ma per compiti critici e professionali, la specializzazione fa ancora la differenza.