Das Deutsche Schriftsystem (Compu-Skript)

Total Page:16

File Type:pdf, Size:1020Kb

Das Deutsche Schriftsystem (Compu-Skript) PD Dr. Wolfgang Schindler. LMU München. Compu-Skript „Das deutsche Schriftsystem“. Version 27.09.2021. Seite 1 E-Mail: Wolfgang.Schindler[ätt]germanistik.uni-muenchen.de Web: http://wolfgang-schindler.userweb.mwn.de/index.html Das deutsche Schriftsystem 1 (Literaturverzeichnis am Ende!) 1 Zur Evolution von Schreibgrammatik Wenn wir in die römische Antike zurückblicken, fällt uns auf, dass es viele Schriftdokumente, bei- spielsweise Inschriften, gibt, die in CAPITALIS und in der sog. SCRIPTIO CONTINUA verfasst sind: Inschrift2 Trajan-Säule in Rom 112/113 n. Chr. Wenn wir das in einer großbuchstabigen durchgängigen Schreibung im Deutschen nachahmen, dann sieht das ungefähr so aus: 3 DIROMERHABENTATSEHLIHOFTERSONEWORTZWISENRAUMEGESRIBEN Die Römer haben tatsächlich öfters ohne Wortzwischenräume geschrieben 1 Dieses Typoskript ist aus einer Vorlesungsgrundlage entstanden. Es ist inspiriert von Beatrice Primus’ Arbeiten, ins- besondere ihrer Vorlesung "Das Schriftsystem des Deutschen“ (Köln, 2009)! Der Interpunktionsteil ist inspiriert von Ursula Bredels Arbeiten. Zu nennen sind auch die Einflüsse des Wortschreibungsteils in der Grammatik von Peter Eisenberg (Grundriss, Bd. 1., Kap. 8). Den Keim legte vor langer Zeit eine Vorlesung von Hartmut Günther, die er während meines Studiums in München hielt. Und natürlich sind meine Gedanken von den vielen Arbeiten inspiriert, die im Literaturverzeichnis am Ende aufgeführt sind. 2 Für die Interessierten hier eine Version mit einer Gliederung und mit einer ungefähren Übersetzung: SENATVS·POPVLVSQVE·ROMANVS / IMP·CAESARI·DIVI·NERVAE·F·NERVAE / TRAIANO·AVG·GERM·DACICO·PONTIF / MAXIMO·TRIB·POT·XVII·IMP·VI·COS·VI·P·P / AD·DECLARANDVM·QVANTAE·ALTITVDINIS / MONS·ET·LOCVS·TANT<IS·OPER>IBVS·SIT·EGESTVS Die Inschrift enthält zwar keine Spatien, aber MITTELPUNKTE, die meist worttrennend eingesetzt werden. Das ist schon eine Stufe weiter als die ursprüngliche scriptio continua ohne solche Gliederungszeichen. Zudem (mit Dank an mein Masterseminar WS 19/20 für diesen Hinweis) werden die Zahlen mit einem Oberstrich markiert, weil z. B. <V> und <I> als Buchstaben oder als Ziffern verstanden werden können. Übersetzung: Der Senat und das Volk von Rom dem Imp[erator] Caesar Nerva Traianus Aug[ustus], [F[ilius]] Sohn des göttlichen Nerva, Bezwinger der Germ[anen] und der Daker, Pontifex Maximus, Inhaber der Amtsgewalt eines Tri[buns], zum 17. Mal, siegreicher Feldherr, zum 6. Mal, Consul zum 6. Mal, P[ater] P[atriae], um zu zeigen, wie hoch der Hügel und das Gelände war, das für diese umfangreichen Baumaßnahmen entfernt wurde. 3 Vernachlässigt sind z. B. Umlautschreibungen, <ie> und das Dehnungs-<h> (ohne). /ç,x/ → <h>. PD Dr. Wolfgang Schindler. LMU München. Compu-Skript „Das deutsche Schriftsystem“. Version 27.09.2021. Seite 2 Die nur aus Großbuchstaben bestehende römische Schrift nennt man CAPITALIS. Vergleicht man eine römische oder altgriechische Scriptio-Continua-Version mit einer im heutigen Schriftdeutsch verfass- ten,4 dann fällt Folgendes auf: Ein alphabetisches Schreibsystem kommt auch ohne eine komplexere Schreibgrammatik aus, die über die Deklaration der Graphem-Phonem-Beziehungen hinausgeht. Wir machen jedoch im heutigen Schriftdeutsch Sprachstrukturelles, vor allem Grammatisches, deutlicher sichtbar und kodieren in unserer Alphabetschrift (deutlich) mehr grammatische Informationen als eine Capitalis-Version. So markieren wir etwa die Wortgrenzen durch Spatien, den Satzanfang oder den Kopf der Nominalphrase durch Großschreibung oder das Satzende durch ein Satzschlusszeichen. Wir haben heute auch eine Interpunktionskomponente in der Schreibung.5 Unsere Schreibung ist deutlich stärker auf den Leser eingestellt als eine römische Capitalis-Schreibung. Das Lesen bzw. De- kodieren von scriptio continua mit Capitalis erweist sich übrigens auch als anstrengender. Lese-Expe- rimente mit Eye-Trackern6 zeigen, dass die Augenbewegungen deutlich unruhiger sind und die visu- elle Speicherung der erkannten Einheiten wesentlich schwerer fällt als bei unserer heutigen Schreibweise.7 Offenbar gibt es, motiviert durch ein Bedürfnis nach deutlicherer Strukturierung, eine Evolution im Schreiben.8 SchreiberInnen und LeserInnen probieren immer wieder schreibgrammatische Neuerun- gen aus, die sie dann gegenseitig gut finden (Evolutions- bzw. Selektionstest bestanden) oder eben nicht. Zu „eben nicht“: Ende des 18. Jahrhunderts und im 19. Jahrhundert werden im Deutschen Plu- ralapostrophe geschrieben, die im späteren 19. Jhrh./Anfang des 20. Jhrh. dann erst einmal wieder verschwinden. So schreiben gebildete Zeitgenossen damals etwa: Comma’s oder Motto’s.9 Schließ- lich nehmen bestimmte Schreibungen wieder ab oder verschwinden sogar (zumindest vorüberge- hend), siehe z. B. das Auf und Ab der Apostrophierungen im Deutschen und vergleiche unten das Kapitel zum Apostroph. Mit der Zeit hat sich eine differenzierte Schreibgrammatik herausgebildet! Diese Schreibgrammatik, die Markierungen wie Spatien, Groß-/Kleinschreibung, Interpunktion etc. verwendet, wollen wir im Folgenden näher kennenlernen. 4 Wobei Schriftanfänger (Kinder vor/bei Schulbeginn) nicht selten erst einmal „Scriptio Continua“ schreiben. 5 Eine frühe interpunktorische „Erfindung“ (auch im Latein der Capitalis-Zeit) war der worttrennende halbhohe MIT- TEPUNKT, nachgeahmt: DIE·RÖMER·HABEN ... 6 Wer sich über Grundsätzliches bezüglich Eye-Tracking informieren möchte, der kann dies beispielsweise hier tun: http://eyetracking.ch/wissen/was-ist-eye-tracking/. 7 Vgl. Raible 1991, online: http://www.romanistik.uni-freiburg.de/raible/Publikationen/Files/1991_Entwicklung_Al- phabetschriften.pdf; 28.09.2018 8 Ich spreche von Evolution, weil all dies durch Ausprobieren und wechselseitiges (Nicht-)Akzeptieren sozial „ausge- handelt“ wurde. 9 Belege von hier: http://www.iaas.uni-bremen.de/sprachblog/2007/04/26/apostrophenschutz/. Aufruf: 5.4.18. Ich habe auch in Büchern aus der damaligen Zeit etliche Pluralapostrophe gesehen (nur nicht im Einzelnen mit der Quelle festgehalten). Die Motivation, Pluralapostrophe zu schreiben, könnten fremde Eigennamen ausgelöst haben, weil wir nicht genau wissen, ob ein wortschließendes <s> zum Namen gehört oder ob es ein Flexiv ist. Im (Nord-)Deut- schen gibt es z. B. die Nachnamen (Wiebke) Engelbart und (Wiebke) Engelbarts, im Plural dann differenziert als die Engelbart’s und die Engelbarts (alternativ: die Engelbarts’) PD Dr. Wolfgang Schindler. LMU München. Compu-Skript „Das deutsche Schriftsystem“. Version 27.09.2021. Seite 3 2 Schreibgrammatik und Schriftlinguistik Diese Vorlesung stellt die im weiteren Sinn grammatischen Aspekte unseres Schreibens, also die Schreibgrammatik bzw. Graphematik,10 in den Vordergrund. Ich folge einem weiten Begriff von Gra- phematik. In einer weit gefassten Graphematikkonzeption werden sowohl die segmentalen Eigen- schaften des Schriftsystems bzw. der Schreibprodukte als auch suprasegmentale Eigenschaften un- tersucht. Eine enge Konzeption (vgl. etwa Neef 2005) beschränkt sich darauf, segmentale Phonologie und Schrift- bzw. Schreibeigenschaften im Verhältnis zueinander anzusehen. Eine Schreibgrammatik oder Graphematik (ob sich beide Extensionen decken oder überlappen, muss ich noch klären) ist Teil einer umfassenderen Schriftlinguistik. Deren Interessen und Komponenten werden in diesem Kapitel nur angedeutet und erst im folgenden Kapitel vertieft. Unsere Schreibung weist mit der phonographischen Komponente (Graphem-Phonem-Korresponden- zen, kurz: GPK (lies GPK: Welches Graphem ist welchem Phonem zugeordnet? Es geht also vom Pho- nem aus) einen Bezug zur Lautebene bzw. Phonologie auf.11 Doch der Output der phonographischen Komponente wird gegebenenfalls durch eine Reihe weiterer Markierungen mit Bezug zu morpholo- gischen oder syntaktischen Aspekten angereichert. Das sind nicht die einzigen Aspekte, es gibt wei- tere, z. B. der Applikationsvorbehalt bei die „Luft“ (‚Atmosphäre‘) auf dem Mars. Ich schließe mich der Perspektive an, dass die geschriebene Sprache einerseits über das phonographische Schreiben einen Bezug zur Lautebene hat und dass sie andererseits eine deutliche bzw. eine völlige Autonomie gegenüber dem Lautlichen besitzt12 Wie sich in unserem Schreiben Morphologisches bzw. Syntakti- sches niederschlagen kann, macht Eisenberg (2013, Bd. 1, 286) an folgendem Beispiel (Beispiel von W.S. ausgebaut) deutlich: (1) / ʀ ɛ ç ə n/ (Standardaussprache: [ˈʀɛç̇n̩]) GPK/PGK morphologisch syntaktisch Schreibung < r e ch e n> <rächen> <Rechen> Markierung (Vgl. Capitalis: <RECHEN>) <a>-Basis (Rache) NP-Kopf, N Information Somit folge ich nicht der Ansicht, dass die Schrift nur ein Festhalten, ein visuelles Fixieren der Rede sei, so dass die Rede den alleinigen relevanten Forschungsgegenstand der Linguistik darstelle.13 Schriftsysteme stehen durchaus in Wechselwirkungen zu phonologischen, morphologischen und syn- taktischen Strukturen bzw. deren Grammatik. Auch die Tatsache, dass syllabische und alphabetische 10 Ob man Graphematik und Schriftgrammatik in eins setzen sollte, bleibt hier ungeklärt. In jedem Fall ist ein weiterer Begriff von Grammatik anzusetzen, der auch pragmatische Aspekte einbezieht wie etwa bei der Großschreibung von sie als Anredepronomen <Sie> oder bei der Setzung von Anführungszeichen, vgl. den Unterschied von Kuno behaup- tet, ich [‚Autor‘] sei ein Außerirdischer und Kuno behauptet: „Ich [‚Kuno‘] bin ein Außerirdischer!“. 11 Hier sei auf die Arbeit von Schmidt (2018) verwiesen, der anders ansetzt und der Morphographie im Deutschen gegenüber der Phonographie einen höheren Stellenwert
Recommended publications
  • A Method to Accommodate Backward Compatibility on the Learning Application-Based Transliteration to the Balinese Script
    (IJACSA) International Journal of Advanced Computer Science and Applications, Vol. 12, No. 6, 2021 A Method to Accommodate Backward Compatibility on the Learning Application-based Transliteration to the Balinese Script 1 3 4 Gede Indrawan , I Gede Nurhayata , Sariyasa I Ketut Paramarta2 Department of Computer Science Department of Balinese Language Education Universitas Pendidikan Ganesha (Undiksha) Universitas Pendidikan Ganesha (Undiksha) Singaraja, Indonesia Singaraja, Indonesia Abstract—This research proposed a method to accommodate transliteration rules (for short, the older rules) from The backward compatibility on the learning application-based Balinese Alphabet document 1 . It exposes the backward transliteration to the Balinese Script. The objective is to compatibility method to accommodate the standard accommodate the standard transliteration rules from the transliteration rules (for short, the standard rules) from the Balinese Language, Script, and Literature Advisory Agency. It is Balinese Language, Script, and Literature Advisory Agency considered as the main contribution since there has not been a [7]. This Bali Province government agency [4] carries out workaround in this research area. This multi-discipline guidance and formulates programs for the maintenance, study, collaboration work is one of the efforts to preserve digitally the development, and preservation of the Balinese Language, endangered Balinese local language knowledge in Indonesia. The Script, and Literature. proposed method covered two aspects, i.e. (1) Its backward compatibility allows for interoperability at a certain level with This study was conducted on the developed web-based the older transliteration rules; and (2) Breaking backward transliteration learning application, BaliScript, for further compatibility at a certain level is unavoidable since, for the same ubiquitous Balinese Language learning since the proposed aspect, there is a contradictory treatment between the standard method reusable for the mobile application [8], [9].
    [Show full text]
  • Effects and Mitigation of Out-Of-Vocabulary in Universal Language Models
    Journal of Information Processing Vol.29 490–503 (July 2021) [DOI: 10.2197/ipsjjip.29.490] Regular Paper Effects and Mitigation of Out-of-vocabulary in Universal Language Models Sangwhan Moon1,†1,a) Naoaki Okazaki1,b) Received: December 8, 2020, Accepted: April 2, 2021 Abstract: One of the most important recent natural language processing (NLP) trends is transfer learning – using representations from language models implemented through a neural network to perform other tasks. While transfer learning is a promising and robust method, downstream task performance in transfer learning depends on the robust- ness of the backbone model’s vocabulary, which in turn represents both the positive and negative characteristics of the corpus used to train it. With subword tokenization, out-of-vocabulary (OOV) is generally assumed to be a solved problem. Still, in languages with a large alphabet such as Chinese, Japanese, and Korean (CJK), this assumption does not hold. In our work, we demonstrate the adverse effects of OOV in the context of transfer learning in CJK languages, then propose a novel approach to maximize the utility of a pre-trained model suffering from OOV. Additionally, we further investigate the correlation of OOV to task performance and explore if and how mitigation can salvage a model with high OOV. Keywords: Natural language processing, Machine learning, Transfer learning, Language models to reduce the size of the vocabulary while increasing the robust- 1. Introduction ness against out-of-vocabulary (OOV) in downstream tasks. This Using a large-scale neural language model as a pre-trained is especially powerful when combined with transfer learning.
    [Show full text]
  • Child Readersв€™ Eye Movements in Reading Thai
    Vision Research 123 (2016) 8–19 Contents lists available at ScienceDirect Vision Research journal homepage: www.elsevier.com/locate/visres Child readers’ eye movements in reading Thai ⇑ Benjawan Kasisopa a, , Ronan G. Reilly a,b, Sudaporn Luksaneeyanawin c, Denis Burnham a a MARCS Institute for Brain, Behaviour, and Development, Western Sydney University, Australia b Department of Computer Science, Maynooth University, Ireland c Centre for Research in Speech and Language Processing, Chulalongkorn University, Thailand article info abstract Article history: It has recently been found that adult native readers of Thai, an alphabetic scriptio continua language, Received 30 July 2014 engage similar oculomotor patterns as readers of languages written with spaces between words; despite Received in revised form 1 July 2015 the lack of inter-word spaces, first and last characters of a word appear to guide optimal placement of Accepted 23 July 2015 Thai readers’ eye movements, just to the left of word-centre. The issue addressed by the research Available online 12 May 2016 described here is whether eye movements of Thai children also show these oculomotor patterns. Here the effect of first and last character frequency and word frequency on the eye movements of 18 Thai chil- Keywords: dren when silently reading normal unspaced and spaced text was investigated. Linear mixed-effects Eye movements model analyses of viewing time measures (first fixation duration, single fixation duration, and gaze dura- Children’s reading Landing site distribution tion) and of landing site location revealed that Thai children’s eye movement patterns were similar to Thai text their adult counterparts. Both first character frequency and word frequency played important roles in Thai children’s landing sites; children tended to land their eyes further into words, close to the word cen- tre, if the word began with higher frequency first characters, and this effect was facilitated in higher fre- quency words.
    [Show full text]
  • Proposal to Encode the Grantha Script in Unicode §1. Introduction
    Proposal to encode the Grantha script in Unicode Shriramana Sharma (jamadagni-at-gmail-dot-com), India 2009-Oct-24 Author’s Note This proposal started out as a joint effort of Elmar Kniprath of Germany and myself. However, Mr Kniprath has decided for personal reasons to retire shortly before its submission. This proposal as it stands contains a lot of material contributed by him, but I assume full responsibility for any errors or omissions. I however retain the words “we”, “us” etc in their generic sense. On the need for a separate proposal We are aware that a proposal for encoding Grantha (L2/09-141) has been submitted by Naga Ganesan in April 2009. We have thoroughly studied it and compared it with a parallel proposal on which we was working since summer 2008. We decided to continue our work and submit an independent proposal for the following reasons: 1. Mr Ganesan’s proposal contains several false assertions. We have submitted our objections as L2/09-316 “Comments on Mr Ganesan’s Grantha Proposal”. 2. Mr Ganesan’s proposal does not consider the use of Grantha for Vedic Sanskrit. Since a large part of the current user community of Grantha is the Vedic scholars of Tamil Nadu, it is very important that Vedic Sanskrit be provided for in encoding. 3. Efforts to work together with Mr Ganesan to submit a unified proposal failed. §1. Introduction The Grantha script is an Indic script descended from Brahmi, still being used in its modern form in parts of South India, especially Tamil Nadu and to a lesser extent in Sri Lanka and other places.
    [Show full text]
  • Schriftzeichen
    Annette Hornbacher (Ethnologie), Sabine Neumann (Kunstgeschichte Ostasiens), Laura Willer (Papyrologie) Schriftzeichen Schriftzeichen lassen sich als die einzelnen Symbole definieren, aus denen ein Schriftsystem besteht. Den verschiedenen Typen von Schriftsystemen entsprechend gibt es verschiedene Arten von Schriftzeichen. Das System, das uns in Europa am vertrautesten ist, ist das alphabetische, bei dem sich mit Hilfe einer eng begrenzten Anzahl von Symbolen, den Buchstaben, jegliches Wort darstellen lässt, abhängig von der Kombination der Buchstaben. Zu dieser Art Schriftzeichen zählen das lateinische, griechische und kyrillische Alphabet. Sie funktionieren zwar alle auf dieselbe Weise, bestehen jedoch aus unterschiedlichen, voneinander abgeleiteten Schriftzeichen; die lateinischen und kyrillischen sind jeweils eine Weiterentwicklung der griechischen, die selbst eine Weiterentwicklung der phönizischen sind. Eine ältere Form des alphabetischen Systems stellen Schriften dar, die nur oder hauptsächlich aus Konsonantenzeichen bestehen. Zu noch heute gebräuch- lichen Schriftsystemen dieser Art gehören das Hebräische (Abb. 1) und Arabische. Im Arabischen werden kurze Vokale, falls überhaupt, mit Hilfe diakritischer Zeichen dargestellt.1 Im Hebräischen können lange Vokale durch Konsonantenzeichen, die sogenannten matres lectionis, oder sämtliche Vokale durch diakritische Zeichen dar- gestellt werden.2 Silbenschriften, bei denen ein Schriftzeichen, das Syllabogramm, den Lautwert einer ganzen Silbe wiedergibt, benötigen eine wesentlich höhere
    [Show full text]
  • Recognition of Punctuation in Voiced and Unvoiced Speech for Ib-CET*
    Recognition of Punctuation in Voiced And Unvoiced Speech For Ib-CET Jiangang Liu School of Foreign Languages, Southeast University, Nanjing, Jiangsu Province 210096, China Institute of Modern Educational Technology Southeast University, Nanjing, Jiangsu Province 210096, China (Contact E-mail: [email protected]) Chen Li School of Foreign Languages, Southeast University, Nanjing, Jiangsu Province 210096, China Institute of Modern Educational Technology Southeast University, Nanjing, Jiangsu Province 210096, China Li Zhao Institute of Modern Educational Technology Southeast University, Nanjing, Jiangsu Province 210096, China School of Information Science and Engineering Southeast University, Nanjing, Jiangsu Province 210096, China Abstract The paper discusses the feasibility of punctuation recognition in oral delivery through voiced and unvoiced speech detection. The paper is firstly focused on introduction of iB-CET, in an attempt to clear away possible illiteracy of linguistic perception and speech recognition technology. Secondly, the paper providess some touches on how linguists interpret punctuation, thus inducing the third part in interpreting engineer’s concept on punctuation relying on Bark wavelet transform parameters and subspace analysis in speech punctuation recognition. Finally, through experiments, the paper convinces readers that punctuation in speech can be accomplished, hence leaves much thought for the notion of punctuation recognition in speech for oral delivery. Keywords: punctuation; voiced and unvoiced; iB-CET I. Introduction The present Internet-base College English Test (iB-CET for short) is getting popular, though some scholars are still arguing against its credibility and feasibility. Designed and planned in May, 2007(Jin Yan, & Wu Jiang, 2009), the iB-CET got started among 53 colleges and universities in 20th of December, 2008 so that China made a milestone in computer-based test rather than paper-based test for high education in history(Liu Jian-gang, & Dong Jing, 2011).
    [Show full text]
  • How Children Learn to Write Words
    How Children Learn to Write Words How Children Learn to Write Words Rebecca TReiman and bReTT KessleR 1 3 Oxford University Press is a department of the University of Oxford. It furthers the University’s objective of excellence in research, scholarship, and education by publishing worldwide. Oxford New York Auckland Cape Town Dar es Salaam Hong Kong Karachi Kuala Lumpur Madrid Melbourne Mexico City Nairobi New Delhi Shanghai Taipei Toronto With offices in Argentina Austria Brazil Chile Czech Republic France Greece Guatemala Hungary Italy Japan Poland Portugal Singapore South Korea Switzerland Thailand Turkey Ukraine Vietnam Oxford is a registered trademark of Oxford University Press in the UK and certain other countries. Published in the United States of America by Oxford University Press 198 Madison Avenue, New York, NY 10016 © Oxford University Press 2014 All rights reserved. No part of this publication may be reproduced, stored in a retrieval system, or transmitted, in any form or by any means, without the prior permission in writing of Oxford University Press, or as expressly permitted by law, by license, or under terms agreed with the appropriate reproduction rights organization. Inquiries concerning reproduction outside the scope of the above should be sent to the Rights Department, Oxford University Press, at the address above. You must not circulate this work in any other form and you must impose this same condition on any acquirer. A copy of this book’s Catalog-in-Publication Data is on file with the Library of Congress ISBN 978–0–19–990797–7
    [Show full text]
  • The Alphabetic Revolution, Writing Systems, and Scribal Training in Ancient Israel
    Cambridge Semitic Languages and Cultures Hornkohl and Hornkohl and New Perspectives in Biblical and Khan (eds) New Perspectives in Biblical and Rabbinic Hebrew Rabbinic Hebrew Aaron D. Hornkohl and Geoffrey Khan (eds) EDITED BY AARON D. HORNKOHL AND GEOFFREY KHAN Most of the papers in this volume originated as presenta� ons at the conference Biblical Hebrew and Rabbinic Hebrew: New Perspecti ves in Philology and Linguisti ,cs which was held at the University of Cambridge, 8–10th July, 2019. The aim of the conference was to build bridges between various strands of research in the fi eld of Hebrew language studies that rarely meet, namely philologists working on Biblical Hebrew, philologists working on New Perspectives in Biblical Rabbinic Hebrew and theore� cal linguists. The volume is the published outcome of this ini� a� ve. It contains peer-reviewed papers and Rabbinic Hebrew in the fi elds of Biblical and Rabbinic Hebrew that advance the fi eld by the philological inves� ga� on of primary sources and the applica� on of cu� ng-edge linguis� c theory. These include contribu� ons by established scholars and by students and early career researchers. This is the author-approved edi� on of this Open Access � tle. As with all Open Book publica� ons, this en� re book is available to read for free on the publisher’s website. Printed and digital edi� ons, together with supplementary digital material, can also be found here: www.openbookpublishers.com Cover image: Genizah fragment of the Hebrew Bible with Babylonian vocalisati on (Num. 18.27-28, Cambridge University Library T-S A38.12; courtesy of the Syndics of Cambridge University Library).
    [Show full text]
  • Wikification for Scriptio Continua
    Wikification for Scriptio Continua Yugo Murawaki, Shinsuke Mori fGraduate School of Informatics, Academic Center for Computing and Media Studiesg, Kyoto University Yoshida-honmachi, Sakyo-ku, Kyoto, 606-8501, Japan fmurawaki, [email protected] Abstract The fact that Japanese employs scriptio continua, or a writing system without spaces, complicates the first step of an NLP pipeline. Word segmentation is widely used in Japanese language processing, and lexical knowledge is crucial for reliable identification of words in text. Although external lexical resources like Wikipedia are potentially useful, segmentation mismatch prevents them from being straightfor- wardly incorporated into the word segmentation task. If we intentionally violate segmentation standards with the direct incorporation, quantitative evaluation will be no longer feasible. To address this problem, we propose to define a separate task that directly links given texts to an external resource, that is, wikification in the case of Wikipedia. By doing so, we can circumvent segmentation mismatch that may not necessarily be important for downstream applications. As the first step to realize the idea, we design the task of Japanese wikification and construct wikification corpora. We annotated subsets of the Balanced Corpus of Contemporary Written Japanese plus Twitter short messages. We also implement a simple wikifier and investigate its performance on these corpora. Keywords: corpus annotation, wikification, word segmentation 1. Introduction However, Wikipedia, as it is, cannot be used as a word dictionary due to segmentation mismatch. Every de- Wikification is the task of detecting concept mentions signer of the word segmentation task needs to define her in text and disambiguating them into their corresponding own segmentation standard because it is left unspecified Wikipedia articles.
    [Show full text]
  • Epigraphic Treebanks: Some Considerations from a Work in Progress
    Epigraphic Treebanks: Some Considerations from a Work in Progress Francesca Dell’Oro and Giuseppe G. A. Celano Pre-Published for FirstDrafts@Classics@, July 26, 2019* Abstract The guidelines of the Ancient Greek Dependency Treebank 2.0 have been written to annotate Ancient Greek texts. The epigraphic texts, however, pose a challenge for those carrying out morphosyntactic annotation: should we remain as close as possible to the actual epigraphic text, or represent it in an interpreted and normalized version? How should all epigraphic peculiarities which do not have standard editorial representation, such as, for example, punctuation marks, be treated? A small corpus such as that of the inscriptions of the Euboean colonies of Sicily of the archaic and classical period has allowed us to test different options and evaluate the annotation challenges. This contribution is the result of a discussion about the advantages and disadvantages of often opposed annotation possibilities. We present here our first proposal for an adaptation of the guidelines to analyse the morphosyntax of inscriptions, which we hope will stimulate discussion between epigraphists and linguists. In particular, we propose to try to stick to the epigraphic evidence as far as possible and therefore render its complexities (e.g., local alphabets, dialect variants not attested in literary texts, ellipsis, punctuation marks, and word forms which can be linguistically interpreted differently), while trying to preserve consistency with the annotation of literary texts. * This paper was accepted for publication in the proceedings of the DHANT conference (= Digital Humanities and Antiquity, Grenoble, 2-4 September 2015) at the end of 2016. 1 1.
    [Show full text]
  • N4704-Medieval-Punct.Pdf
    ISO/IEC JTC1/SC2/WG2 N4704 L2/15-327 2015-12-19 Universal Multiple-Octet Coded Character Set International Organization for Standardization Organisation internationale de normalisation Международная организация по стандартизации Doc Type: Working Group Document Title: Proposal to add Medievalist punctuation characters to the UCS Source: UC Berkeley Script Encoding Initiative (Universal Scripts Project) Authors: Michael Everson (editor), Peter Baker, Florian Grammel, Odd Einar Haugen Status: Liaison Contribution Action: For consideration by JTC1/SC2/WG2 and UTC Date: 2015-12-19 Replaces: N3193 (L2/07-004) 2007-01-09 1. Introduction. A set of characters used by specialists in medieval European philology, palaeography, and linguistics has long been absent from the Universal Character Set. This proposal requests 21 punctuation characters be added for support of medieval European linguistic and literary research and publication. If this proposal is accepted, the following characters will be encoded: ⹅ 2E45 PARAGRAPHUS MARK ⹆ 2E46 POSITURA MARK ⹇ 2E47 COLON WITH SIDEWAYS REVERSED RAISED COMMA ⹈ 2E48 COLON WITH RAISED POSITURA MARK ⹉ 2E49 TWO DOTS OVER COMMA ⹊ 2E4A PUNCTUS ELEVATUS MARK ⹋ 2E4B SIDEWAYS REVERSED MIDDLE COMMA ⹌ 2E4C PUNCTUS FLEXUS MARK ⹍ 2E4D PUNCTUS VERSUS MARK ⹎ 2E4E LOW PUNCTUS VERSUS MARK ⹏ 2E4F PUNCTUS INTERROGATIVUS MARK ⹐ 2E50 PUNCTUS EXCLAMATIVUS MARK ⹑ 2E51 MEDIEVAL COMMA ⹒ 2E52 HIGH DOT ⹓ 2E53 SIMPLEX DUCTUS MARK ⹔ 2E54 DOTTED SOLIDUS ⹕ 2E55 SIGNE DE RENVOI ⹖ 2E56 MIDDLE COMMA ⹗ 2E57 TILDE WITH DOT ABOVE AND DOT BELOW 1 ⹘ 2E58 VERTICAL FIVE DOTS ⹙ 2E59 TRIPLE DAGGER 2. Functions of Medieval punctuation. Modern European punctuation comprises a set of named marks which are used with relatively well-established usages. Medieval punctuation was based on discursive functions; in some areas and at some times different configurations of dots were used to express those functions.
    [Show full text]
  • Tibetan Printing: Comparisons, Continuities and Change Brill’S Tibetan Studies Library
    Tibetan Printing: Comparisons, Continuities and Change Brill’s Tibetan Studies Library Edited by Henk Blezer Alex McKay Charles Ramble volume 39 The titles published in this series are listed at brill.com/btsl Tibetan Printing: Comparisons, Continuities and Change Edited by Hildegard Diemberger, Franz-Karl Ehrhard and Peter Kornicki LEIDEN | BOSTON This is an open access title distributed under the terms of the Creative Commons Attribution-Noncommercial 3.0 Unported (CC-BY-NC 3.0) License, which permits any non-commercial use, distribution, and reproduction in any medium, provided the original author(s) and source are credited. Cover illustration: The 1521 print of the Mani bka’ ’bum produced at Gung thang. Photograph from the Cambridge University Library. Library of Congress Cataloging-in-Publication Data Names: Diemberger, Hildegard, editor. | Ehrhard, Franz-Karl, editor. | Kornicki, Peter F. (Peter Francis) editor. Title: Tibetan printing : comparisons, continuities and change / edited by Hildegard Diemberger, Franz-Karl Ehrhard and Peter Kornicki. Description: Leiden ; Boston : Brill, 2016. | Series: Brill’s Tibetan studies library ; volume 39 | Papers presented at a workshop on “Printing as an Agent of Change in Tibet and beyond” held at Pembroke College, Cambridge, in November 2013. | Includes bibliographical references and index. Identifiers: LCCN 2016005484 (print) | LCCN 2016021799 (ebook) | ISBN 9789004316065 (hardback : alk. paper) | ISBN 9789004316256 (E-book) Subjects: LCSH: Printing—Tibet Region—History—Congresses. | Books—Tibet Region—History— Congresses. | Bookbinding—Tibet Region—History—Congresses. | Book design—Tibet Region—History—Congresses. Classification: LCC Z8.T53 T53 2016 (print) | LCC Z8.T53 (ebook) | DDC 686.20951/5—dc23 LC record available at https://lccn.loc.gov/2016005484 Want or need Open Access? Brill Open offers you the choice to make your research freely accessible online in exchange for a publication charge.
    [Show full text]