Recentemente ho dato un'occhiata seria a @JoinSapien e, a dire il vero, mi ha colpito. Non perché abbia qualche modello fantastico, ma perché si sta impegnando seriamente nella questione della "qualità dei dati". Guarda, ora ci sono progetti AI ovunque, si sfidano in potenza di calcolo, velocità di inferenza, chi ha la demo più impressionante, ma il vero aspetto su cui dovrebbero concentrarsi è raramente toccato—— 👉 I dati di base che hai usato per addestrare quelle AI, sono davvero puliti? Sono etichettati correttamente? Le fonti sono abbastanza varie? 🔹 Molti progetti all'inizio pensano "facciamo prima e vediamo dopo", 🔹 e poi, quando le cose vanno male, tornano indietro a correggere i dati, rietichettare, riaddestrare i modelli, spendere soldi per riparare i danni… 🔹 In parole povere: se i dati non sono a posto, il modello è tutto tempo sprecato. Facciamo un esempio: 🔹 Anche se sei molto intelligente, se leggi sempre testi pieni di errori e disordinati, cosa puoi imparare? 🔹 Anche l'AI è la stessa cosa, se i dati sono confusi, anche con molte GPU è tutto inutile. 🔹 In settori come la finanza o la sanità, un errore del modello può essere catastrofico. 🔹 Soprattutto in casi di rilevamento delle frodi, usare dati sbagliati = un sacco di falsi allarmi, e alla fine gli utenti non si fidano più del sistema. Quindi penso che il punto intelligente di Sapien sia: 🔹 Sottolineare la diversificazione delle fonti di dati, non raccogliere solo contenuti da un certo tipo di popolazione (questo è super importante, per evitare pregiudizi nel modello) 🔹 Scrivere chiaramente le regole di etichettatura (cosa significa "auto"? Berlina? Sportiva? Autobus? Spiegare chiaramente per non creare confusione) 🔹 Avere qualcuno che controlli! Non basta che la macchina etichetti e poi basta, altrimenti il tasso di errore aumenterà drasticamente. In sintesi: Loro prendono sul serio la questione di "come trasferire la conoscenza umana all'AI" come un sistema serio. Ho guardato un po' di progetti, ce ne sono molti che parlano di quanto siano veloci le GPU, di quanto siano impressionanti i modelli, ma quelli che parlano di "come fare i dati correttamente e con precisione" sono davvero pochi. Ora, i team che vogliono fare AI seriamente dovrebbero davvero prima sistemare le "basi dei dati", altrimenti stai solo dando da mangiare all'AI cibo spazzatura e sperando che diventi uno scienziato? Non scherziamo. Quindi ora comincio a pensare che progetti come Sapien, potrebbero essere davvero il tipo di cui dovremmo preoccuparci nel Web3 AI: Non sono quelli che esplodono con un airdrop a breve termine e poi spariscono, ma quelli che costruiscono gradualmente le capacità dell'AI su "dati reali" e "esperienza umana". Personalmente supporto questa direzione, se l'AI vuole essere affidabile, prima di tutto bisogna gestire i dati. Non lasciare che il modello faccia errori in modo rapido e preciso.
Mostra originale
100
4.105
Il contenuto di questa pagina è fornito da terze parti. Salvo diversa indicazione, OKX non è l'autore degli articoli citati e non rivendica alcun copyright sui materiali. Il contenuto è fornito solo a scopo informativo e non rappresenta le opinioni di OKX. Non intende essere un'approvazione di alcun tipo e non deve essere considerato un consiglio di investimento o una sollecitazione all'acquisto o alla vendita di asset digitali. Nella misura in cui l'IA generativa viene utilizzata per fornire riepiloghi o altre informazioni, tale contenuto generato dall'IA potrebbe essere impreciso o incoerente. Leggi l'articolo collegato per ulteriori dettagli e informazioni. OKX non è responsabile per i contenuti ospitati su siti di terze parti. Gli holding di asset digitali, tra cui stablecoin e NFT, comportano un elevato grado di rischio e possono fluttuare notevolmente. Dovresti valutare attentamente se effettuare il trading o detenere asset digitali è adatto a te alla luce della tua situazione finanziaria.