Buon giorno, dovrei realizzare un progetto per il corso di data mining ma ho dei piccoli problemi.
Di seguito vi descrivo il progetto:


Obiettivo del progetto è il confronto tra le diverse tecniche per il Text Mining su due dataset: Reuters 21578 e Cade12.
Di seguito vengono descritte brevemente le caratteristiche dei due dataset.
REUTERS-21578
Il dataset contiene 21578 documenti collezionati dall’agenzia omonima a partire dal 1987 e classificati manualmente dal personale. Le etichette appartengono a 5 diverse categorie (ad es.'people', 'places' 'topics'). Il numero totale di categorie è 672, ma molte sono estremamente rare.
Il dataset nel formato originario è racchiuso in 22 files di 1000 documenti delimitati da tag SGML e può essere scaricato dalla pagina http://kdd.ics.uci.edu/databases/reu...ters21578.html
CADE 12
I documenti appartenenti al dataset Cade12 rappresentano un sottoinsieme di pagine web estratte dalla directory Cade WEB, classificate manualmente da esperti di dominio. Una versione (parzialmente) pre-processata del dataset vi sarà consegnata insieme alla traccia del progetto.
Il Processo di KDD
Nella realizzazione del progetto devono essere coperti tutti gli step per processo di KDD. Di seguito vengono riportate indicazioni e suggerimenti per lo svolgimento di ogni task.
I TASK(Analisi dei dati)
Il task di analisi dei dati dipende dal particolare dataset e mira a comprendere meglio le informazioni
disponibili e a individuarne le parti di maggiore e minore interesse.
REUTERS:
• Comprensione del formato originario. Le informazioni dettagliate sulla struttura del dataset Reuters possono essere trovate nel file README.
• Selezione dei documenti di interesse. Alcuni documenti appartengono a molte categorie, altri ad una sola e alcuni non hanno nessuna categoria associata. E’ di interesse mantenere solo i documenti associati ad almeno una categoria.
• Tra tutte le categorie presenti nel dataset originiario, si vogliono mantenere solo le 10 più grandi. I documenti appartenenti alle altre categorie devono essere raggruppati sotto un’unica categoria.


Qualcuno sa dirmi come faccio a selezionare i documenti di interesse e a mantenere le 10 categorie più grandi?


Vi ringrazio in anticipo