Ricerca | Progetti
Ricerca Progetti
ESTRAZIONE AUTOMATICA DELLE UNITÀ DI TEMPO E LUOGO
Le unità di luogo e tempo sono ad alto contenuto informativo all'interno della documentazione elettronica, pertanto l'estrazione automatica di tali sequenze consente il reperimento di tutte quelle informazioni relative a:(a) DURATA di un evento, come in "dal 30 agosto al 12 settembre";(b) DATA precisa di un evento, ad esempio "il 20 ottobre 2014";(c) LUOGO di un evento, ad esempio "a Salerno", "negli Stati Uniti";Le sequenze possibili per esprimere sono innumerevoli e di diverso grado di complessità. Diamo alcuni esempi:DURATA:"dal 1 al 12 settembre (del) 2014", "a partire dal 2013 fino alla fine del 2015", "per tre giorni", "da lunedì 1 settembre a venerdì 12", "da lunedì fino a venerdì della prossima settimana", "dalle ore 10.00 del 25 giugno alle 14:00 di venerdì 27 ", "dalle 10.00 fino alle 15.00".DATA:"a settembre (del) 2014", "il giorno 24", "giovedì, 24 dicembre", "venerdì della scorsa settimana", "il mese prossimo". E inoltre "alle 10.00 di giovedì prossimo", "a partire dalle 8:00 di giovedì 24 dicembre 2014"LUOGO:Per le unità di luogo saranno presi in considerazione unicamente i toponimi. A tal fine è necessaria un'analisi del gruppo preposizionale. Ad esempio, l'uso locativo della preposizione A è ammesso in una sequenza come "a Salerno", ma non in "a Stati Uniti", allo stesso modo la preposizione IN è accettabile in una sequenza come "in Italia" ma non "in Bahamas".Sono possibili anche combinazioni di unità di luogo come "a Roma e (a) Salerno", "a Venice, in California".SEQUENZE INCASSATE:La rete di grammatiche sarà costruita in base al modello degli automi a stati finiti. Le grammatiche permetteranno l'estrazione di tali sequenze e la loro l'annotazione XML, in base alle informazioni di natura aspettuale per quanto riguarda le unità temporali. Ad esempio, la sequenza "il giorno 24 settembre" indica un momento preciso su una linea temporale e sarà annotata automaticamente come segue:$IMM_PER_0001D'altro canto, una sequenza come "dal giorno 24 dicembre al 3 gennaio" è un'unità complessa indicante una DURATA che contiene due DATE, "il giorno 24 dicembre" e "il 3 gennaio". In tal caso le due sequenze temporali dovranno essere incassate all'interno della sequenza preposizionale DA....A. Si tratta quindi di due unità incassate in un'unità più larga. Dovrà essere annotata come segue:$IMM_PER_0002Tale grammatica complessa utilizza il dizionario elettronico delle parole semplici (Sdic) già costruito per NooJ. Senza tale dizionario le grammatiche non potrebbero applicarsi.Per quanto riguarda invece l'annotazione delle unità di luogo, le grammatiche elettroniche dovranno far uso non solo del dizionario delle parole semplici ma soprattutto del dizionario dei toponimi. Questo dizionario, già costruito in anni passati in versione demo, dovrà essere arricchito e aggiornato.Le unità di luogo (come quelle temporali) possono indicare luoghi precisi, ad esempio "a Roma", oppure un percorso come in "da New York a Miami". Anche in questo caso le strutture possono essere incassate secondo precise regole sintattiche.COMBINAZIONI DI DATA, DURATA E LUOGO:Oltre alle sequenze incassate sono possibili combinazioni di sequenze indicanti DATA, DURATA e LUOGO, come in:"dal 30 agosto al 12 settembre e il 20 ottobre 2014, a Salerno alle ore 10:00".Le grammatiche elettroniche dovranno prevedere quindi le combinazioni possibili di diversi pattern locali.FASI DELLA RICERCA:Fase 1: analisi delle sequenze temporali di tipo puntuale (DATA), elaborazione della grammatica elettronica.Fase 2: analisi delle sequenze temporali incassate di DURATA, elaborazione della grammatica elettronica.Fase 3: analisi del gruppo preposizionale relativo alle unità di LUOGO, elaborazione della grammatica indicante un percorso da L(uogo)1 a L(uogo)2 e viceversa.Fase 4: arricchimento del dizionario dei toponimiFase 5: verifica automatica delle grammatiche su corpora e loro aggiornamento.
Struttura | Dipartimento di Scienze Politiche e della Comunicazione/DISPC | |
Responsabile | VIETRI Simonetta | |
Tipo di finanziamento | Fondi dell'ateneo | |
Finanziatori | Università degli Studi di SALERNO | |
Importo | 2.050,00 euro | |
Periodo | 7 Novembre 2014 - 7 Novembre 2016 | |
Proroga | 7 novembre 2017 | |
Gruppo di Ricerca | VIETRI Simonetta (Coordinatore Progetto) DI BUONO MARIA PIA (Ricercatore) DI MAIO Francesco (Ricercatore) ELIA Annibale (Ricercatore) MONTELEONE Mario (Ricercatore) PELOSI SERENA (Ricercatore) |