156875329.Pdf
Total Page:16
File Type:pdf, Size:1020Kb
Ringraziamenti Vorrei ringraziare il professor Delmonte per aver subito accettato di aiutarmi nella realizzazione di questa tesi, condividendo con me il suo sapere in un campo in cui è Maestro. Gli sono grata anche per avermi indirizzata verso un’esperienza importante e per aver sempre avuto cura di far svolgere i nostri momenti di confronto in un clima di collaborazione. Lo ringrazio, inoltre, per avermi lasciato ampio margine di autonomia nel lavoro, intervenendo, tuttavia, con estrema disponibilità e puntualità quando è stato necessario. Grazie alla professoressa Poletto perché, con la sua capacità di far sentire sempre all’altezza, riesce a rivoluzionare un percorso con rapidità e naturalezza, consentendo di seguire le proprie inclinazioni e di superare ogni apparente limite. Ringrazio il professor Bertocci per aver seguito con pazienza ogni passo dell’iter che mi ha condotta al termine di questo lavoro, mostrandosi sempre curioso e partecipe, e per avermi indicato possibili percorsi per realizzare il mio progetto. Infine, vorrei dire grazie a Giulia Bonansinga per aver offerto la sua professionalità nel compimento di una parte di questa tesi. La ringrazio anche per non essersi limitata a essere mia collega, diventando, invece, grande amica. Indice Introduzione .......................................................................................... 1 I parte 1 La linguistica del testo ..................................................................... 7 1.1 Storia della linguistica testuale ................................................ 7 1.1.1 L’analisi transfrastica ................................................ 9 1.1.2 La grammatica testuale ............................................ 10 1.1.3 La teoria del testo ..................................................... 11 1.2 Definire il testo e le sue proprietà .......................................... 11 1.2.1 Discorso e testo ........................................................ 11 1.2.2 I sette princìpi di testualità ...................................... 12 1.2.3 La struttura del testo ................................................ 15 1.2.4 Contesto e memoria testuale .................................. 18 1.3 Le dimensioni del testo ............................................................ 21 1.3.1 Coerenza e coesione ................................................ 21 1.3.2 Il piano logico ........................................................... 22 1.3.3 La dimensione referenziale del testo ..................... 24 1.3.4 La dimensione enunciativa del testo ..................... 28 2 I tipi di testo e il riassunto .............................................................. 31 2.1 La tipologia testuale .................................................................. 31 2.1.1 La differenza tra scritto e parlato ........................... 31 2.1.2 I tipi di testo .............................................................. 32 2.1.3 Descrizione dei tipi di testo .................................... 34 2.1.4 Generi, sottogeneri e dominio ............................... 37 2.2 Il riassunto ................................................................................. 39 2.2.1 Definizione di riassunto .......................................... 39 2.2.2 Le fasi del riassunto ................................................. 42 2.2.3 La forma di un riassunto ......................................... 44 3 Automatic Summarization .............................................................. 45 3.1 Dal riassunto manuale al riassunto automatico .................... 45 3.2 Estrazione .................................................................................. 48 3.3 Astrazione .................................................................................. 52 II parte 4 Dal riassunto manuale a Getarun ................................................. 59 4.1 Riflessioni linguistiche applicate ai riassunti ......................... 59 4.1.1 Genere e domini del reference set di testi ................. 59 4.1.2 Tecniche per produrre riassunti manualmente .... 61 4.1.3 Metodi applicati ai testi ............................................ 66 4.1.4 Valutazioni ................................................................ 78 4.2 Getarun ...................................................................................... 78 4.2.1 Parametri di Getarun ............................................... 78 4.2.2 Risultati di Getarun .................................................. 81 4.2.3 Valutazioni su Getarun ............................................ 89 5 Progetto di Automatic Summarization con Expert System . 91 5.1 La tecnologia semantica di Expert System ........................... 91 5.2 Progetto di Text Summarization presso Expert System .... 95 5.2.1 Fase di studio preliminare del progetto ................ 95 5.2.2 Progettazione del programma ................................ 96 5.2.3 Parametri del programma ....................................... 98 5.2.4 Risultati del programma .......................................... 101 5.2.5 Casi particolari .......................................................... 122 5.2.6 Valutazioni ................................................................ 125 Conclusioni ............................................................................................ 127 Appendice .............................................................................................. 131 Bibliografia ............................................................................................ 165 Introduzione Il presente lavoro nasce dalla mia esigenza di scoprire quali meccanismi computazionali guidano la comprensione e la produzione del linguaggio naturale. Il mio fortunato confronto con il professor Bertocci prima, e con la professoressa Poletto dopo, mi ha condotto alla collaborazione con il professor Delmonte, grazie al quale ho potuto dare una forma progettuale alla curiosità verso il ramo computazionale della linguistica. È stato infatti stabilito che per la mia tesi sarebbe stato interessante indagare i metodi per ottenere automaticamente un riassunto. Ho anche svolto un periodo di tirocinio nell’azienda modenese Expert System, dove ho potuto ideare un programma di Automatic Summarization, assistendo poi all’inizio della sua implementazione. Parallelamente alla mia ricerca sulle tecniche di Automatic Summarization e al lavoro in Expert System, sono stata aggiornata dal professor Delmonte, esprimendo talvolta delle osservazioni, sui risultati di un altro sistema: Getarun, versione dell’originale Getaruns, curata dal professore. Questa tesi, quindi, si suddivide in due parti: la prima teorica e la seconda sperimentale. Quest’ultima sezione dell’elaborato include la descrizione del programma di Expert System e di Getarun, e le valutazioni dei loro risultati. Lo scopo della tesi è quello di mostrare quale ruolo svolgono la sintassi e la semantica nella produzione automatica di un riassunto. Inoltre, per avvicinarsi il più possibile ai risultati che otterrebbe un umano, ci si concentrerà sulle tecniche manuali necessarie per trasformare la base di un testo ridotto e per renderlo, infine, un’unità coerente e coesa. Per dimostrare in che modo queste componenti linguistiche contribuiscono alla creazione di un riassunto, sarà necessario definire prima di tutto il “testo”. Nel primo capitolo verrà tracciata una breve storia della linguistica del testo. Partendo dalla retorica antica, si giungerà alle correnti del Novecento e ai relativi rappresentanti: Harris e la sua teoria del connected specch, Weinrich e l’affermazione «Linguistik ist Textlinguistik», la fase transfrastica, quella della grammatica testuale e quella della teoria del testo. Più precisamente, per quanto riguarda la teoria del testo, verranno approfonditi i setti princìpi di testualità teorizzati da Beaugrande e Dressler. Si esplorerà poi la struttura del testo, che prevede il livello base dell’unità comunicativa, quello inferiore dell’unità informativa, e quello superiore del movimento testuale. Inoltre, si scoprirà che l’architettura semantica del testo si suddivide in: piano logico, piano referenziale e piano enunciativo. 1 La stesura di questo capitolo sarà guidata fondamentalmente dalle seguenti fonti: la Linguistica del testo di Angela Ferrari, Un’introduzione alla linguistica del testo di Massimo Colella e Introduzione alla linguistica testuale di Beaugrande e Dressler. Questa introduzione alla linguistica del testo costituisce la base per lo studio delle operazioni che contribuiscono a produrre un riassunto. Proseguendo, nel secondo capitolo verrà mostrata la classificazione dei generi dei testi, la quale non avviene, considerando quanto affermato da Dressler e Beaugrande, solo sulla base della frequenza di nomi e verbi, o della lunghezza della frase, ma anche secondo la funzione e lo scopo del testo. Si proporrà la classificazione di Werlich, secondo il quale i testi si dividono in: descrittivo, narrativo, espositivo, argomentativo e regolativo. Si vedrà, poi, che i testi possono presentarsi sotto forma di sottogeneri e possono ulteriormente essere distinti in base al dominio, cioè al tema che caratterizza il contenuto di un qualsiasi tipo di testo. Questa premessa sui generi e domini dei testi risulta utile nel momento in cui bisogna definire il riassunto. Nella parte finale del secondo capitolo, emergerà che questo non può essere annoverato tra i generi di testo, poiché è più che altro il risultato di un’operazione cognitiva che, a