Stato Dell'arte Dialogo Vocale

Total Page:16

File Type:pdf, Size:1020Kb

Stato Dell'arte Dialogo Vocale SINTESI VOCALE PANORAMICA La sintesi vocale (speech synthesis) è la tecnica per la riproduzione artificiale della voce umana. Un sistema usato per questo scopo è detto sintetizzatore vocale e può essere realizzato tramite software o via hardware. Ci si può chiedere, indipendentemente dall’applicazione che si vuole creare, se sia realmente necessario che la qualità della riproduzione debba essere alta, se la voce debba suonare come quella di un essere umano oppure se una voce dal suono meccanico possa tranquillamente essere sufficiente [6]. L'esperienza ha indicato che le persone sono molto sensibili, non tanto alle parole che sono dette, ma al modo in cui esse sono state pronunciate. Quindi l’obiettivo dei sistemi di sintesi è quello di costruire un sistema informatico capace di emettere un “suono vocale” che si avvicini il più possibile a quello reale.Lo scopo del sistema è quello di riuscire a sintetizzare qualsiasi tipo di input scritto [5], ad esempio sviluppando un sistema a comunicazione vocale inglese, si deve essere capaci di leggere qualsiasi tipo di frase in lingua inglese. A tal fine, vale la pena di fare alcune distinzioni per quanto riguarda il concetto di riproduzione digitale. Continuamente sul nostro computer registriamo e riproduciamo discorsi, musica, messaggi e quant’altro, ma questo è proprio un semplice processo di riproduzione di un qualcosa che originalmente era stato registrato.L'idea che sta dietro alla sintesi vocale è appunto quella di riprodurre i messaggi che originalmente non sono stati registrati. Una prima tecnica è quella di impostare una serie di parole di uso comune e ricombinarle poi per creare un discorso completo; questa tecnica è utilizzata frequentemente nei servizi di segreteria telefonica. Le caratteristiche negative di tale tecnica sono prima di tutto la bassa scalabilità del sistema, poi chiaramente la creazione di un segnale creato molto artificioso in cui a volte il risultato è accettabile, a volte no.E’ per tali motivi che gli studi, attuali e passati, si sono soffermati maggiormente su un sistema che può permettere un tipo di comunicazione quasi globale. Da qui in poi ci soffermeremo infatti su una serie di tecniche avanzate di “speech synthesis”. In linea generale distinguiamo due tipi di sintesi vocale: SINTESI PER REGOLE : un tipo di sintesi articolatoria e per formanti. In questo caso la produzione del suono avviene grazie ad un insieme il più esaustivo possibile di regole dedotte dallo studio dell’apparato vocale umano o da analisi di fonetica sperimentale. Molto interessante notare, a questo proposito, che la voce ottenuta è del tutto nuova: non è prodotta a partire da registrazioni di voce umana, ma nasce dalle sole regole implementate nei programmi del calcolatore. SINTESI PER SEGMENTI : In questo caso lo studio preparatorio del sistema di sintesi verte sulla creazione di un corpus di brevi segnali vocali, denominati appunto segmenti. Tali segmenti coincidono di fatto con un dizionario fonetico, costituito da suoni vocali elementari. Ricombinando questi elementi base é possibile ricostruire una qualsiasi parola o frase della lingua; particolare attenzione va posta però sia nella fase di creazione del dizionario che nella successiva ricombinazione. In quest’ultima fase molto delicata risulta la giunzione tra i segmenti, affinché le caratteristiche spettrali e di intensità che vengono percepite dall’ascoltatore siano plausibili. MODELLI TEXT TO SPEECH Nel modello più comune di sintesi vocale (Fig. 1.1) ci sono essenzialmente due componenti; un sistema di analisi del testo che decodifica il segnale del testo e che ne definisce un modello e un sistema di sintesi della voce che codifica questa modello trasformandolo in discorso. Fig. 1.1: Schema generale di un sistema di “Sintesi Vocale” Ci sono diversi modelli nei sistemi TTS, esaminiamo brevemente le caratteristiche generali di ognuno. Questi modelli non sono mutuamente esclusivi e molti sistemi attualmente esistenti sono infatti la combinazione di uno o più modelli [13]. • Signal-to-signal model . In questo modello, il processo è visto come quello di una conversione del segnale scritto in uno vocale direttamente. In tali modelli quello che si vuole fare non è cercare di comprendere il messaggio di input di testo per poi fare la sintesi, ma si vuole cercare di convertire direttamente il testo in discorso; in particolare il sistema non è diviso nelle due fasi di analisi e sintesi. • Pipelined models. Molto spesso il modello Signal-to-Signal è implementato come un modello pipeline il cui il processo è visto come quello di passare dalla rappresentazione di un modulo a quello successivo. Ciascun modulo esegue una specifica attività come il part-of-speech tagging (può essere un inserimento, mettere in pausa e così via). Nessuna distinzione viene fatta tra operazioni di analisi esplicita e sintesi. Questi sistemi sono spesso altamente modulari e spesso i moduli non sono esplicitamente collegati in modo che diverse tecniche possano coesistere nello stesso sistema complessivo. • Text as language models. In questo modello il processo prevede semplicemente la sintesi. Il testo stesso è preso come il messaggio linguistico e la sintesi viene fatta proprio su di esso. E’ difficile trovare un testo sufficientemente pulito quindi viene aggiunto di solito un processo di normalizzazione come una sorta di pre-processore per il processo di sintesi stessa. Lo scopo è quello di riordinare il testo prima di poterlo inviare come input al sintetizzatore. • Grapheme and phoneme form models [14]. Questo approccio [14] per molti versi può essere considerato simile al modello più generale possibile di sintesi in cui però, all’interno del testo di input, viene cercato prima un grafema, che poi viene convertito in fonema per la sintesi. Le parole non sono al centro della rappresentazione, come nel caso del modello comune. Questo approccio è particolarmente interessante nelle lingue in cui la corrispondenza grafema-fonema è sufficientemente diretta, in queste lingue trovare i grafemi significa spesso i fonemi e quindi la pronuncia può essere trovata con precisione. Per le lingue, come l’inglese [2], questo è più difficile, e per le lingue come ad esempio il cinese questo approccio è probabilmente impossibile. • Full linguistic analysis models. Il modello comune si basa sull'idea che ciò che tutti andiamo a ricercare in un testo è il significato delle parole. Alcuni sistemi si portano molto avanti in termini di analisi linguistica e morfologica, part-of-speech tagging e analisi sintattica. Fino ad un certo punto questo approccio risulta funzionale per identificare le parole, la questione è in realtà se questo deve essere eseguito come processo indipendente o se si è in grado di trovare le parole con un unico integrato approccio. Oltre al rilevamento del significato della parola, le analisi di tipo linguistico sono spesso viste in maniera utile per la prosodia. • Prosody from the text . Questi modelli si basano sul fatto che ogni singola parola necessita di una specifica e dettagliata intonazione, allora questa deve in qualche modo essere generata. Un presupposto comune è che il testo contenga informazioni sufficienti per determinare la prosodia, e così molti sistemi TTS dispongono di moduli, che cercano di prevedere le rappresentazioni prosodiche direttamente dal testo. TECNICHE DI SINTESI VOCALE Si riporta una panoramica sulle principali tecniche di sintesi vocale partendo da quelle di prima generazione, ormai quasi non più utilizzate, fino ad arrivare alle tecniche dei giorni nostri. TECNICHE DI PRIMA GENERAZIONE Vediamo le principali tre tecniche di “prima generazione” che hanno dominato nel campo della sintesi fino ai primi anni 80’. Formant Syntesis : è stata la prima tecnica di sintesi vera e propria ad essere sviluppata; è spesso chiamata la “sintesi by rule” (all'epoca il termine "sintesi" era usato più comunemente per il processo di ricostruzione di una forma d'onda che fosse stata precedentemente normalizzata per la codifica della voce). Viene adottato un sistema modulare come approccio acustico- fonetico al problema della sintesi. In Fig. 1.2 si vede come il suono viene generato da una sorgente periodica. Il segnale viene fatto passare nel modello del canale vocale, e si vede come il canale nasale e quello orale vengono trattati in maniera separata, come sistemi paralleli. Successivamente gli output dei due canali vengono combinati e dati in pasto ad un componente che si occupa della simulazione delle caratteristiche propagative delle labbra e del naso. Fig. 1.2: Formant Syntesis Classical Linear Prediction Syntesis: Una delle difficoltà principali nella costruzione di un modello più sofisticato è che non è sempre facile trovare i valori formanti direttamente dal discorso. Tali valori spesso possono essere determinati da uno spettrogramma a scansione visiva, questo può richiedere tempo ed è soggetto ad errori umani. L'uso di un tracker formante automatico può ignorare queste difficoltà pratiche, ma negli anni in cui la “Formant Synthesis” era nel pieno del suo sviluppo, trackers particolarmente precisi dovevano ancora essere sviluppati. Inoltre, entrambe le tecniche visive e automatiche soffrono di un problema comune e cioè che in alcuni casi le formanti stesse non sono facilmente distinguibili. La funzione di trasferimento del tratto vocale magari non è in una posizione dove essa genera chiari picchi di risonanza, ma piuttosto i poli sono ben all'interno della circonferenza unitaria, e quindi l'inviluppo spettrale non è particolarmente
Recommended publications
  • Commercial Tools in Speech Synthesis Technology
    International Journal of Research in Engineering, Science and Management 320 Volume-2, Issue-12, December-2019 www.ijresm.com | ISSN (Online): 2581-5792 Commercial Tools in Speech Synthesis Technology D. Nagaraju1, R. J. Ramasree2, K. Kishore3, K. Vamsi Krishna4, R. Sujana5 1Associate Professor, Dept. of Computer Science, Audisankara College of Engg. and Technology, Gudur, India 2Professor, Dept. of Computer Science, Rastriya Sanskrit VidyaPeet, Tirupati, India 3,4,5UG Student, Dept. of Computer Science, Audisankara College of Engg. and Technology, Gudur, India Abstract: This is a study paper planned to a new system phonetic and prosodic information. These two phases are emotional speech system for Telugu (ESST). The main objective of usually called as high- and low-level synthesis. The input text this paper is to map the situation of today's speech synthesis might be for example data from a word processor, standard technology and to focus on potential methods for the future. ASCII from e-mail, a mobile text-message, or scanned text Usually literature and articles in the area are focused on a single method or single synthesizer or the very limited range of the from a newspaper. The character string is then preprocessed and technology. In this paper the whole speech synthesis area with as analyzed into phonetic representation which is usually a string many methods, techniques, applications, and products as possible of phonemes with some additional information for correct is under investigation. Unfortunately, this leads to a situation intonation, duration, and stress. Speech sound is finally where in some cases very detailed information may not be given generated with the low-level synthesizer by the information here, but may be found in given references.
    [Show full text]
  • A Tooi to Support Speech and Non-Speech Audio Feedback Generation in Audio Interfaces
    A TooI to Support Speech and Non-Speech Audio Feedback Generation in Audio Interfaces Lisa J. Stfelman Speech Research Group MIT Media Labomtory 20 Ames Street, Cambridge, MA 02139 Tel: 1-617-253-8026 E-mail: lisa@?media.mit. edu ABSTRACT is also needed for specifying speech and non-speech audio Development of new auditory interfaces requires the feedback (i.e., auditory icons [9] or earcons [4]). integration of text-to-speech synthesis, digitized audio, and non-speech audio output. This paper describes a tool for Natural language generation research has tended to focus on specifying speech and non-speech audio feedback and its use producing coherent mtdtisentential text [14], and detailed in the development of a speech interface, Conversational multisentential explanations and descriptions [22, 23], VoiceNotes. Auditory feedback is specified as a context-free rather than the kind of terse interactive dialogue needed for grammar, where the basic elements in the grammar can be today’s speech systems. In addition, sophisticated language either words or non-speech sounds. The feedback generation tools are not generally accessible by interface specification method described here provides the ability to designers and developers.z The goal of the work described vary the feedback based on the current state of the system, here was to simplify the feedback generation component of and is flexible enough to allow different feedback for developing audio user interfaces and allow rapid iteration of different input modalities (e.g., speech, mouse, buttons). designs. The declarative specification is easily modifiable, supporting an iterative design process. This paper describes a tool for specifying speech and non- speech audio feedback and its use in the development of a KEYWORDS speech interface, Conversational VoiceNotes.
    [Show full text]
  • Really Useful
    Really Useful Technology For Students with Learning Disabilities Students with learning disabilities often have difficulty with skills others take for granted, such as reading, listening, spelling, writing, or organizing information. Appropriate computer software and assistive technology can make those tasks easier and allow a student to feel a sense of accomplishment. Feeling successful with technology can greatly boost an individual’s self-esteem and may even make neces- sary tasks enjoyable. However, not all software or technology is appropriate or useful for students with learning disabilities. The more care parents and teach- ers take to fit the software to a student’s specific need and learning style, the more useful the software or tool will be for that student. 1 It may help to keep the following suggestions in mind when choosing software for students with learning disabilities: ¡ The software should address the skill the student needs to learn and have levels that allow the student to progress. ¡ Computer displays should not be cluttered. Students with learning disabilities usually concentrate better with few distractions. ¡ Instructions should be straightforward. Long, wordy directions at the beginning of the program are frustrating to most students with learning disabilities. ¡ It should be easy for the student to correct mistakes. ¡ The program should be easy to enter and exit. Ideally, the student should be able to operate the program independently. ¡ The software should be fun and motivating with topics of interest to the individual. ¡ It should be easy to save the work. Students with learning disabilities should be allowed as many sessions as necessary to complete the project.
    [Show full text]
  • Design, Implementation and Evaluation of a Voice Controlled Information Platform Applied in Ships Inspection
    NORWEGIAN UNIVERSITY OF SCIENCE AND TECHNOLOGY DESIGN, IMPLEMENTATION AND EVALUATION OF A VOICE CONTROLLED INFORMATION PLATFORM APPLIED IN SHIPS INSPECTION by TOR-ØYVIND BJØRKLI DEPARTMENT OF ENGINEERING CYBERNETICS FACULTY OF ELECTRICAL ENGINEERING AND TELECOMMUNICATION THESIS IN NAUTICAL ENGINEERING 0 DNV NORWEGIAN UNIVERSITY OF SCIENCE AND TECHNOLOGY ABSTRACT This thesis describes the set-up of a speech recognition platform in connection with ship inspection. Ship inspections involve recording of damages that is traditionally done by taking notes on a piece of paper. It is assumed that considerable double work of manual re-entering the data into the ship database can be avoided by introducing a speech recogniser. The thesis explains the challenges and requirements such a system must meet when used on board. Its individual system components are described in detail and discussed with respect to their performance. Various backup solutions in case the speech recogniser fails are presented and considered. A list of selected relevant commercially available products (microphones, speech recogniser and backup solutions) is given including an evaluation of their suitability for their intended use. Based on published literature and own experiences gained from an speech demonstrator having essentially the same interface as the corresponding part as the DNV ships database, it can be concluded that considerable improvement in microphone and speech recognition technology is needed before they are applicable under challenging environments. The thesis ends with a future outlook and some general recommendations about promising solutions. Page i DNV NORWEGIAN UNIVERSITY OF SCIENCE AND TECHNOLOGY PREFACE The Norwegian University of Science and Technology (NTNU) offers a Nautical engineering Studies programme, required entrance qualification are graduation from a Naval Academy or Maritime College, along with practical maritime experience as an officer.
    [Show full text]
  • Hardware Requirements System Extensions
    CONTENTS Hardware Requirements System Extensions Install Mac OS 8.6 Apple CD/DVD Driver AppleScript 1.3.7 Finder 8.6 AppleShare Workstation Client3.8.3 ColorSync 2.6.1 Apple Help 1.2 DrawSprocket 1.1.4 Find By Content Inside the System File InputSprocket 1.4.1 LaserWriter 8 version 8.6.5 ATSUI 1.1 Mac OS Runtime for Java 2.1.1 Dvorak Keyboard Layouts, 1.0 Multiprocessing API Library Edition Manager NetSprocket 1.1.1 Event Manager Network SetupExtension File Manager Open Transport 2.0.3 Folder Manager PlainTalk 1.5.4 Font Manager SoundSprocket 1.0 Locales UDF 1.5.2 Memory Manager URLAccess Menu Manager QuickDraw Text Apple Menu Items SCSI Manager Sherlock 2.1 Sound Manager Text Services Manager Apple Extras Text Encoding Converter1.4.3 Thread Manager Desktop Printer Utility1.2 Unicode Text Utilities 1.0 USB Interface Module Utilities Virtual Memory Manager Window Manager Disk Copy 6.3.3 Control Panels Change History ColorSync 2.6.1 Downloadables Startup Disk 7.7.4 This technote discusses changes in and corrections to the next generation of Mac OS: Mac OS 8.6. This system follows Mac OS 8.5.1 (the majority of whose features are found in Mac OS 8.5) and contains several new and revised features, including: improved multiprocessor support support for new Apple CPUs improved QuickDraw Text performance better MRJ performance bug fixes Updated: [Sep 28 2000] Hardware Requirements Mac OS 8.6 can be installed on any Macintosh that originally shipped with a PowerPC processor that has at least 24 megabytes of physical RAM and a minimum of 32 megabytes of logical RAM (virtual memory is set to 64 megabytes by default if there is less than 64 megabytes of physical RAM installed).
    [Show full text]
  • D5.1 ANALYSIS: Multi-User, Multimodal & Context Aware Value Added Services
    Deliverable 5.1 Project Title Next-Generation Hybrid Broadcast Broadband Project Acronym HBB-NEXT Call Identifier FP7-ICT-2011-7 Starting Date 01.10.2011 End Date 31.03.2014 Contract no. 287848 Deliverable no. 5.1 Deliverable Name ANALYSIS: Multi-User, Multimodal & Context Aware Value Added Services Work package 5 Nature Report Dissemination Public Authors Oskar van Deventer (TNO), Mark Gülbahar (IRT), Sebastian Schumann, Radovan Kadlic (ST), Gregor Rozinaj, Ivan Minarik (STUBA), Joost de Wit (TNO), Christian Überall, Christian Köbel (THM), Contributors Jennifer Müller (RBB), Jozef Bán, Marián Beniak, Matej Féder, Juraj Kačur, Anna Kondelová, Luboš Omelina, Miloš Oravec, Jarmila Pavlovičová, Ján Tóth, Martin Turi Nagy, Miloslav Valčo, Mário Varga, Matúš Vasek (STUBA) Due Date 30.03.2012 Actual Delivery Date 12.04.2012 HBB-NEXT I D5.1 ANALYSIS: Multi-User, Multimodal & Context Aware Value Added Services Table of Contents 1. General introduction ....................................................................................................... 3 2. Multimodal interface for user/group-aware personalisation in a multi-user environment . 6 2.1. Outline ........................................................................................................................... 6 2.2. Problem statement ......................................................................................................... 6 2.3. Gesture recognition ........................................................................................................ 7 2.3.1.
    [Show full text]
  • Apple Directions 10/95
    The Developer Business Report October 1995 AppleDirections Inside This Issue Apple News Strategy Mosaic Editor’s Note: Doing What’s Right 2 Apple Releases PCI—The Future IndustryWatch: Enough to Make a Grown Man Cry 3 PowerPC of Macintosh Macintosh DOS Compatible Systems Can Maintain Both Windows 3.x and Windows 95 9 Processor–Based Expansion New Power Macintosh Computers By Gregg Williams, Apple Directions staff Outperform Pentium 9 PowerBook Netscape Adopts QuickTime, Quick- Imagine being the world’s greatest automobile Time VR in Strategic Agreement 10 mechanic and making a hobby out of improv- Computers ing your favorite car. You add a new engine, The Mac Speaks Back 10 better brakes, luxury seats—and pretty soon, New Technology Designed you realize that you’ve got a brand new car, CD Highlights: System Software to Retake the Lead Edition, October 1995 11 and it’s hot! Something very much like that is happen- Human Interface: This Old Interface 12 Apple Computer, Inc., recently announced a ing to the Macintosh (and Mac OS) platform. complete renewal of its Apple PowerBook line Apple has already replaced the Motorola QuickDraw 3D—The Future Is of computers. The Macintosh PowerBook 680x0 processor with the PowerPC processor. (Virtually) Here 14 5300 and PowerBook Duo 2300 series are OpenDoc and, later, Copland will enable OpenDoc Human Interface FAQs 21 Apple’s first notebook computers to employ developers to do much more with software. the PowerPC 603e RISC processor; the new But it may not have occurred to you that Marketing Feature: Apple Guide— PowerBook 190 series offers the performance Apple Computer, Inc., has just replaced anoth- Intelligent Help for Your Business 25 of the previously top-of-the-line 68040 proces- er fundamental building block that has been sor–based PowerBook 500 series at a more with the Macintosh since 1987—the NuBus™ The Internet Page 30 affordable price.
    [Show full text]
  • Speech Synthesis
    Contents 1 Introduction 3 1.1 Quality of a Speech Synthesizer 3 1.2 The TTS System 3 2 History 4 2.1 Electronic Devices 4 3 Synthesizer Technologies 6 3.1 Waveform/Spectral Coding 6 3.2 Concatenative Synthesis 6 3.2.1 Unit Selection Synthesis 6 3.2.2 Diaphone Synthesis 7 3.2.3 Domain-Specific Synthesis 7 3.3 Formant Synthesis 8 3.4 Articulatory Synthesis 9 3.5 HMM-Based Synthesis 10 3.6 Sine Wave Synthesis 10 4 Challenges 11 4.1 Text Normalization Challenges 11 4.1.1 Homographs 11 4.1.2 Numbers and Abbreviations 11 4.2 Text-to-Phoneme Challenges 11 4.3 Evaluation Challenges 12 5 Speech Synthesis in Operating Systems 13 5.1 Atari 13 5.2 Apple 13 5.3 AmigaOS 13 5.4 Microsoft Windows 13 6 Speech Synthesis Markup Languages 15 7 Applications 16 7.1 Contact Centers 16 7.2 Assistive Technologies 16 1 © Specialty Answering Service. All rights reserved. 7.3 Gaming and Entertainment 16 8 References 17 2 © Specialty Answering Service. All rights reserved. 1 Introduction The word ‘Synthesis’ is defined by the Webster’s Dictionary as ‘the putting together of parts or elements so as to form a whole’. Speech synthesis generally refers to the artificial generation of human voice – either in the form of speech or in other forms such as a song. The computer system used for speech synthesis is known as a speech synthesizer. There are several types of speech synthesizers (both hardware based and software based) with different underlying technologies.
    [Show full text]
  • Review of Speech Synthesis Technology
    Helsinki University of Technology Department of Electrical and Communications Engineering Sami Lemmetty Review of Speech Synthesis Technology This Master's Thesis has been submitted for official examination for the degree of Master of Science in Espoo on March 30, 1999. Supervisor of the Thesis Professor Matti Karjalainen HELSINKI UNIVERSTY OF TECHNOLOGY Abstract of the Master's Thesis Author: Sami Lemmetty Name of the Thesis: Review of Speech Synthesis Technology Date: March 30, 1999 Number of pages: 104 Department: Electrical and Communications Engineering Professorship: Acoustics and Audio Signal Processing (S-89) Supervisor: Professor Matti Karjalainen Synthetic or artificial speech has been developed steadily during the last decades. Especially, the intelligibility has reached an adequate level for most applications, especially for communication impaired people. The intelligibility of synthetic speech may also be increased considerably with visual information. The objective of this work is to map the current situation of speech synthesis technology. Speech synthesis may be categorized as restricted (messaging) and unrestricted (text-to-speech) synthesis. The first one is suitable for announcing and information systems while the latter is needed for example in applications for the visually impaired. The text-to-speech procedure consists of two main phases, usually called high- and low-level synthesis. In high-level synthesis the input text is converted into such form that the low-level synthesizer can produce the output speech. The three basic methods for low-level synthesis are the formant, concatenative, and articulatory synthesis. The formant synthesis is based on the modeling of the resonances in the vocal tract and is perhaps the most commonly used during last decades.
    [Show full text]
  • Universidad Católica “Nuestra Señora De La Asunción”
    Universidad Católica “Nuestra Señora de la Asunción” Facultad de Ciencias y Tecnología (CYT) Ingeniería Informática Teoría y Aplicaciones de la Informática 2 Tema: Interfaces de Lenguajes Natural Rodrigo Villalba Zayas Año 2007 Contenido - Introducción pag. 3 - Procesamiento del lenguaje Natural pag. 3 - Breve Historia pag. 4 - Dificultades en el Procesamiento de Lenguajes Naturales pag. 4 - Aplicaciones pag. 5 - Síntesis de Voz pag. 5 - Reconocimiento del Habla pag. 6 - Reconocimiento de Caracteres Ópticos pag 7 - Generación de Lenguajes Naturales pag. 8 - Traducción Automática pag. 8 - Búsqueda de Respuestas pag. 9 - Recuperación de Información pag. 10 - Extracción de la Información pag. 10 - Bibliografía pag 10 - Anexos pag 11 Introducción: El lenguaje natural es uno de los muchos estilos de interfaces que pueden ser utilizados en un dialogo entre una computadora y un humano. Como veremos es muy difícil dirigir las operaciones de una maquina usando el mismo lenguaje que usamos en el día a día. Campos en la ciencia de la computación estipulan que el lenguaje natural esta lejos de ser una alternativa atractiva como parecería al principio. La literatura tiende a enfocarse a los problemas potenciales que esta presentaría. Unos de esos problemas sería la ambigüedad que presentan los lenguajes naturales (en contrapartida de los lenguajes formales usados para programar computadoras que son fácilmente traducibles a sentencias de procesador). Implementaciones exitosas han sido caracterizadas por ser suficientemente restringidos en el análisis sintáctico y semántico de dicho lenguaje poniendo en duda el estatus de “Lenguaje Natural”. Usualmente el grado de ambigüedad de los lenguajes naturales es considerado demasiado extremo para ser usado efectivamente como un “Estilo de Interfaz” Cuando los sistemas usan restricciones como estructuras para limitar la ambigüedad, es asumido que el usuario deberá aprender que estructuras son aceptables haciendo que “el lenguaje natural” no sea más útil o aprendible que un lenguaje de comandos formal.
    [Show full text]
  • Desktop Messaging and My Callpilot Installation and Administration
    Nortel CallPilot Desktop Messaging and My CallPilot Installation and Administration NN44200-305 . Document status: Standard Document version: 01.10 Document date: 27 January 2010 Copyright © 2007–2010 , Nortel Networks All Rights Reserved. Sourced in Canada The information in this document is subject to change without notice. The statements, configurations, technical data, and recommendations in this document are believed to be accurate and reliable, but are presented without express or implied warranty. Users must take full responsibility for their applications of any products specified in this document. The information in this document is proprietary to Nortel Networks. The process of transmitting data and call messaging between the CallPilot server and the switch or system is proprietary to Nortel Networks. Any other use of the data and the transmission process is a violation of the user license unless specifically authorized in writing by Nortel Networks prior to such use. Violations of the license by alternative usage of any portion of this process or the related hardware constitutes grounds for an immediate termination of the license and Nortel Networks reserves the right to seek all allowable remedies for such breach. Trademarks *Nortel, the Nortel logo, the Globemark, and Unified Networks, BNR, CallPilot, DMS, DMS-100, DMS-250, DMS-MTX, DMS-SCP, DPN, Dualmode, Helmsman, IVR, MAP, Meridian, Meridian 1, Meridian Link, Meridian Mail, Norstar, SL-1, SL-100, Succession, Supernode, Symposium, Telesis, and Unity are trademarks of Nortel Networks. 3COM is a trademark of 3Com Corporation. ADOBE is a trademark of Adobe Systems Incorporated. ATLAS is a trademark of Quantum Corporation. BLACKBERRY is a trademark of Research in Motion Limited.
    [Show full text]
  • Speech Synthesis with Neural Networks
    Invited paper, World Congress on Neural Networks, San Diego, September 1996, pages: 45-50 Speech Synthesis with Neural Networks Orhan Karaali, Gerald Corrigan, and Ira Gerson Motorola, Inc., 1301 E. Algonquin Road, Schaumburg, IL 60196 [email protected], [email protected], [email protected] ABSTRACT Text-to-speech conversion has traditionally been performed either by concatenating short samples of speech or by using rule-based systems to convert a phonetic representation of speech into an acoustic representation, which is then converted into speech. This paper describes a system that uses a time-delay neural network (TDNN) to perform this phonetic-to-acoustic mapping, with another neural network to control the timing of the generated speech. The neural network system requires less memory than a concatenation system, and performed well in tests comparing it to com- mercial systems using other technologies. 1.0 Introduction 1.1 Description of Problem Text-to-speech conversion involves converting a stream of text into a speech waveform. This conversion process fre- quently includes the conversion of a phonetic representation of the text into a number of speech parameters. The speech parameters are then converted into a speech wave form by a speech synthesizer. As the complexity and power of computers increase, means of communicating with them other than by traditional keyboard and display approaches becomes attractive. Speech dialog systems which include speech synthesis capabil- ities are considered as the ideal candidate for a number of computer user interfaces. Also, in recent years the number of portable and automotive electronic products has increased greatly. These include communication devices, hand held computers, and automotive systems.
    [Show full text]