Textverarbeitung Text Processing

Total Page:16

File Type:pdf, Size:1020Kb

Textverarbeitung Text Processing Textverarbeitung Text Processing Dipl. Math. F. Braun Universität Regensburg Rechenzentrum https://homepages.uni- regensburg.de/~brf09510/EDV/kurs_info/brf09510/kurs_info/textproc/textproc.html https://homepages.uni- regensburg.de/~brf09510/EDV/kurs_info/brf09510/kurs_info/textproc/textproc.pdf svn/doku/trunk/textproc/textproc.tex 9. Dezember 2019 KAPITEL 1 Zeichensätze, Zeichencodes und encodings 1. Webseiten über den Unicode One Code to rule them all, One Code to nd them, One Code to bring them in, and in the darkness bind them Bemerkung: Tengwar, die Elbenschrift, in der dieser böse Spruch geschrieben wurde, hat im Unicode die Code- points U+016080 bis U+0160FF. http://www.unicode.org/roadmaps/smp/ Das Tengwar-Projekt scheint jedoch seit 1997 zu ruhen. Der Unicode Standard 12.1.0: https://www.unicode.org/versions/Unicode12.1.0/ http://www.unicode.org/versions/Unicode12.0.0/UnicodeStandard-12.0.pdf und seine jüngeren und älteren Brüder: http://www.unicode.org/versions/ Joel Spolsky: The Absolute Minimum Every Software Developer Absolutely, Positively Must Know About Un- icode and Character Sets (No Excuses!), 2003 http://www.joelonsoftware.com/articles/Unicode.html Dr. Florian Deiÿenböck: No Such Thing As Plain Text, 2015 https://www.cqse.eu/en/blog/no-such-thing-as-plain-text/ QbProg: Do you really want me to write code like that?! Unicode and your application, Sunday, November 11, 2012 http://cppwhispers.blogspot.de/2012/11/unicode-and-your-application-1-of-n.html ICU hat ein Tag bei stackoverow: http://stackoverflow.com/questions/tagged/icu 2. Geschichte Robert Bemer: https://www.thocp.net/biographies/bemer_bob.htm Robert Bemer: Survey of coded character representation https://dl.acm.org/citation.cfm?id=367493 Full text as PDF Bob Bemer: HOW ASCII GOT ITS BACKSLASH 3 4 1. ZEICHENSÄTZE, ZEICHENCODES UND ENCODINGS 1960 Ascii, ASA, American Standards Association, X3.2 1986 ANSI X3.4-1986, ISO/IEC 646:1991, ECMA-6 1987,1998-2003 ISO 8859 zu spät und zu wenig! ISO/IEC 8859-1:1998, ISO/IEC 8859-2:1999 ISO/IEC 8859-3:1999, ISO/IEC 8859-4:1998, ISO/IEC 8859-5:1999, ISO/IEC 8859-6:1999, ISO/IEC 8859-7:2003, ISO/IEC 8859-8:1999, ISO/IEC 8859-9:1999, ISO/IEC 8859-10:1998, ISO/IEC 8859-11:2001, ISO/IEC 8859-12 eingestellt, ISO/IEC 8859-13:1998, ISO/IEC 8859-14:1998, ISO/IEC 8859-15:1999, ISO/IEC 8859-16:2001 1991 Unicode 1.0.0 1992 Unicode 1.0.1 1993 Unicode 1.1.0, ISO/IEC 10646:1993 1995 Unicode 1.1.5 1996 Unicode 2.1.0, ISO/IEC 10646-1:1993+Amendment 5/7 1998 Unicode 2.1.2 1998 Unicode 2.1.5 1998 Unicode 2.1.8 1999 Unicode 2.1.9 1999 Unicode 3.0.0, ISO/IEC 10646-1:2000 2000 Unicode 3.0.1 2001 Unicode 3.1.0, ISO/IEC 10646-1/2:2001 2001 Unicode 3.1.1 2002 Unicode 3.2.0, ISO/IEC 10646-1/2:2001+Amendment 1 2003 Unicode 4.0.0, ISO/IEC 10646:2003 2004 Unicode 4.0.1 2005 Unicode 4.1.0 2006 Unicode 5.0.0 2008 Unicode 5.1.0 2009 Unicode 5.2.0 2010 Unicode 6.0.0, ISO/IEC 10646:2011 2012 Unicode 6.1.0, ISO/IEC 10646:2012 2012 Unicode 6.2.0 2013 Unicode 6.3.0 2014 Unicode 7.0.0 2015 Unicode 8.0.0, ISO/IEC 10646:2014 2016 Unicode 9.0.0, ISO/IEC 10646:2015, 4. ed. 2017 Unicode 10.0.0, ISO/IEC 10646:2017; Bitcoin, CJK 2018 Unicode 11.0.0, ISO/IEC 10646:2017; Copyleft, Chinese chess 2019 Unicode 12.0.0, ISO/IEC 10646:2017. 5. ed.; small hiragana and katagana, tamil, lao, hieroglyphs Der Unicode enthält heute als 21-Bit-Code etwas über 2 Millionen Zahlen. Sie werden nicht alle als Codepoints (s.u.) verwendet: in Gebrauch sind lediglich etwas über 1 Million Codepoints mit Nummern zwischen 0 und 10FFFF. Sie werden in 17 Ebenen gegliedert; die base plane enthält die 65536 (sehr häugen) Codepoints von 0 bis FFFF. Weitere Zeichen verteilen sich auf die 16 weiteren supplementary planes. Bisher wurden davon nur 5 Ebenen (1, 2, 14, 15, 16) deniert; 11 davon (3-13) sind für künftigen Erweiterungen noch frei. Die Ebenen sind nicht lückenlos mit Schriftzeichen gefüllt und enthalten nicht ausschlieÿlich Schriftzeichen. In den ersten drei Ebenen sind daher in Version 10 (2017) von den hier theoretisch möglichen 196608 Schriftzeichen (3 · 216) 136690 Zeichen in 139 Schriftsystemen verfügbar. 3. Begrie http://www.joelonsoftware.com/articles/Unicode.html Joel Spolsky: The Absolute Minimum Every Soft- ware Developer Absolutely, Positively Must Know About Unicode and Character Sets, 2003 http://www.gymel.com/charsets/ Zeichentabellen, 2001 http://czyborra.com/charsets/ Czyborra: charsets, 1998 http://userguide.icu-project.org/unicode ICU, _die_ Unicode Library http://scripts.sil.org/cms/scripts/page.php?site_id=nrsi&id=IWS-Chapter03 Peter Constable, Cha- racter set encoding basics, 2001-06-13 3. BEGRIFFE 5 http://www.goland.org/unicode_c_windows/ Unicode, Windows and C++, 2012 Ein Zeichensatz (character set oder character repertoire) ist eine exakt festgelegte Menge S verschiedener Schriftzeichen. Hier sind noch keine Zeichennummern im Spiel. Der Unicode-Zeichensatz als Beispiel ist wirk- lich sehr umfangreich. Kleiner sind die Menge der 26 lateinischen Buchstaben, das kyrillische oder griechische Alphabet und DIN 66003 bez. DIN 66303. Ein Zeichencode (ccs, coded character set) ist ein Zeichensatz S mit einer bijektiven (injektiv und surjektiv) Abbildung zwischen den Schriftzeichen des Zeichensatzes und einer Codemenge M (Byte, endliche Teilmenge der ganzen Zahlen . ). Die Menge M heiÿt auch codespace oder codepage mit dem dizilen Unterschied, daÿ der codespace eher die Codemenge M und die codepage die Zeichenmenge S beschreibt. Im Unicode besteht M aus einer Teilmenge der ganzen Zahlen 0 - 2097151 = 221 − 1, die in maximal 21 Bit gespeichert werden können. Für weniger mit mathematischer Sprache Vertraute ist der Zeichencode einfach eine willkürliche Durchnum- merierung der in Zeichensatz festgelegten Schriftzeichen, d.h. jedes Schriftzeichen bekommt eine eindeutige Nummer aus der Codemenge M. Die Nummerierung ist nicht zwingend lückenlos. Ein codepoint oder encoded character ist ein Element der Codemenge M, das ein Schriftzeichen aus S bezeichnet. Man kann also das Schriftzeichen oder seinen codepoint angeben. Ein Beispiel ist das Eurozeichen e mit der Nummer 8364 im Unicode. Für Neulinge zusätzlich erschwerend ist, dass die Nummer meist im Sedezimalsystem angegeben wird, beim Eurozeichen also 20AC1. Für Uniccode-Codepoints hat sich die Notation U+20AC mit genau vier Sedezimalziern eingebürgert. In HTML haben Sie vielleicht schon die sedezimale und die dezimale Schreibweise € und € gesehen. In vielen Programmiersprachen benutzt man die Notation \uxxxx. Texte werden durch die Codepoints ihrer Schriftzeichen dargestellt. Ein Text besteht also aus einer Folge von Codepoints aus einem Zeichencode. Wenn Ihr neuer Rechner 719,16e gekostet hat und dieser Preis im Unicode gespeichert wird, besteht er aus den Codepoints 55 49 57 44 49 54 8364 oder im Sedezimalsystem 37 31 39 2C 31 36 20AC. Notationen dieser Folge sind dann U+0037 U+0031 U+0039 U+002C U+0031 U+0036 U+20AC oder auch \u0037 \u0031 \u0039 \u002C \u0031 \u0036 \u20AC. In einfachen Fällen können die Codepoints wie im Beispiel direkt aneinandergereiht werden. Werden sie als Text angegeben, müssen sie durch ein Zeichen getrennt werden. Im Beispiel wurde das Leerzeichen verwendet. Im Rechnerspeicher benutzt man Bytes mit Werten zwischen 0 und 255 für ASCII-Texte (UCS-1), Doppelbytes mit Werten zwischen 0 und 65535 (UCS-2) oder Vierbytegruppen mit Werten zwischen 0 0 und 4294967295 (UCS- 4) für Unicodetexte. Zusätzlich muss bei Bytegruppen mit mehr als einem Byte die sog. endianess festgelegt werden. Als UCS-2-Text müssen im Beispiel die zu kurzen Zahlen mit Nullen auf 2 Byte aufgefüllt werden: 0037 0031 0039 002C 0031 0036 20AC. Wenn man dieses Beispiel in Einzelbytes auöst erhält man 00 37 00 31 00 39 00 2C 00 31 00 36 20 AC in der bigendian-Darstellung und 37 00 31 00 39 00 2C 00 31 00 36 00 AC 20 in der littleendian-Darstellung. Dieser Parameter wird von der verwendeten Hardware bestimmt; Intel und ARM speichern littleendian, Risc-Cpus (Sparc, Power, Mips), 68000, Alpha oder MMIX speichern bigendian. Die genaue Festlegung, wie Codepoints abgespeichert werden, wird encoding genannt. Heute wird UCS selten verwendet, da die encodings UCS-1, UCS-2, UCS-4 mit der endianess als Zusatzangabe als veraltet gelten. Die Verfahren, Codepoints mit mehr als 8 Bit zu speichern, sind also deutlich komplexer geworden. Das encoding ist die Festlegung des konkret verwendeten Ablageverfahrens. Die encoding form (gute deutsche Übersetzung nicht bekannt, cef, character encoding form, oft nur kurz encoding genannt) deniert, in wie groÿe Bytegruppen ein Codepoint gespeichert wird und wie Codepoints, die die denierte Bytegruppe überschreiten, gespeichert werden können. Im UTF-8 werden Einzelbytes verwendet, UTF-16 speichert Codepoints in ein oder zwei 16-Bit-Variablen und UTF-32 kann alle heutigen Codepoints in einer 32-Bit-Variablen speichern. Die Variablen heiÿen auch code units. Weil der Begri so wichtig ist: Eine code unit ist eine Speichereinheit für einen ganzen Codepoint oder, falls die code unit zu klein ist, für einen Codepoint-Teil. Dann besteht der Codepoint aus mehreren code units. Das encoding scheme (gute deutsche Übersetzung nicht bekannt, ces, character encoding scheme, oft nur kurz endianess genannt) deniert die Ablage der Variablen als Bytes im Speicher. In einfachen Fällen wird nur die Reihenfolge festgelegt (big-endian oder little-endian), jedoch sind auch platzsparende schemes de- niert (SCSU, BOCU, Puniycode). Komplexe Schemes können zwischen mehreren Varianten wechseln (ISO/IEC 1Das Sedezimalsystem, auch Hexadezimalsystem benutzt die ersten sechs Buchstaben A, B, C, D, E und F als Ziern mit den Werten A=10, B=11, C=12, D=13, E=14 und F=15.
Recommended publications
  • Proposal to Add U+2B95 Rightwards Black Arrow to Unicode Emoji
    Proposal to add U+2B95 Rightwards Black Arrow to Unicode Emoji J. S. Choi, 2015‐12‐12 Abstract In the Unicode Standard 7.0 from 2014, ⮕ U+2B95 was added with the intent to complete the family of black arrows encoded by ⬅⬆⬇ U+2B05–U+2B07. However, due to historical timing, ⮕ U+2B95 was not yet encoded when the Unicode Emoji were frst encoded in 2009–2010, and thus the family of four emoji black arrows were mapped not only to ⬅⬆⬇ U+2B05–U+2B07 but also to ➡ U+27A1—a compatibility character for ITC Zapf Dingbats—instead of ⮕ U+2B95. It is thus proposed that ⮕ U+2B95 be added to the set of Unicode emoji characters and be given emoji‐ and text‐style standardized variants, in order to match the properties of its siblings ⬅⬆⬇ U+2B05–U+2B07, with which it is explicitly unifed. 1 Introduction Tis document primarily discusses fve encoded characters, already in Unicode as of 2015: ⮕ U+2B95 Rightwards Black Arrow: Te main encoded character being discussed. Located in the Miscellaneous Symbols and Arrows block. ⬅⬆⬇ U+2B05–U+2B07 Leftwards, Upwards, and Downwards Black Arrow: Te three black arrows that ⮕ U+2B95 completes. Also located in the Miscellaneous Symbols and Arrows block. ➡ U+27A1 Black Rightwards Arrow: A compatibility character for ITC Zapf Dingbats. Located in the Dingbats block. Tis document proposes the addition of ⮕ U+2B95 to the set of emoji characters as defned by Unicode Technical Report (UTR) #51: “Unicode Emoji”. In other words, it proposes: 1. A property change: ⮕ U+2B95 should be given the Emoji property defned in UTR #51.
    [Show full text]
  • ISO Basic Latin Alphabet
    ISO basic Latin alphabet The ISO basic Latin alphabet is a Latin-script alphabet and consists of two sets of 26 letters, codified in[1] various national and international standards and used widely in international communication. The two sets contain the following 26 letters each:[1][2] ISO basic Latin alphabet Uppercase Latin A B C D E F G H I J K L M N O P Q R S T U V W X Y Z alphabet Lowercase Latin a b c d e f g h i j k l m n o p q r s t u v w x y z alphabet Contents History Terminology Name for Unicode block that contains all letters Names for the two subsets Names for the letters Timeline for encoding standards Timeline for widely used computer codes supporting the alphabet Representation Usage Alphabets containing the same set of letters Column numbering See also References History By the 1960s it became apparent to thecomputer and telecommunications industries in the First World that a non-proprietary method of encoding characters was needed. The International Organization for Standardization (ISO) encapsulated the Latin script in their (ISO/IEC 646) 7-bit character-encoding standard. To achieve widespread acceptance, this encapsulation was based on popular usage. The standard was based on the already published American Standard Code for Information Interchange, better known as ASCII, which included in the character set the 26 × 2 letters of the English alphabet. Later standards issued by the ISO, for example ISO/IEC 8859 (8-bit character encoding) and ISO/IEC 10646 (Unicode Latin), have continued to define the 26 × 2 letters of the English alphabet as the basic Latin script with extensions to handle other letters in other languages.[1] Terminology Name for Unicode block that contains all letters The Unicode block that contains the alphabet is called "C0 Controls and Basic Latin".
    [Show full text]
  • Oral History of Captain Grace Hopper
    Oral History of Captain Grace Hopper Interviewed by: Angeline Pantages Recorded: December, 1980 Naval Data Automation Command, Maryland CHM Reference number: X5142.2009 © 1980 Computer History Museum Table of Contents BACKGROUND HISTORY ...........................................................................................................3 1943-1949: MARK I, II, AND III COMPUTERS AT HARVARD....................................................6 1949-1964: ECKERT AND MAUCHLY, UNIVAC, AND THE ONE-PASS COMPILER ................7 The Need for User-Friendly Languages ..................................................................................10 DEMANDS FOR THE FUTURE..................................................................................................12 Application Processors, Database Machines, Distributed Processing ....................................12 Demand for Programmers and System Analysts ....................................................................14 The Value and Cost of Information..........................................................................................14 The Navy’s Dilemma: Micros and Software Creation..............................................................15 The Murray Siblings: Brilliant Communicators.........................................................................18 Common Sense and Distributed Computing ...........................................................................19 BACK TO 1943-1949: HOWARD AIKEN....................................................................................21
    [Show full text]
  • The File Cmfonts.Fdd for Use with Latex2ε
    The file cmfonts.fdd for use with LATEX 2".∗ Frank Mittelbach Rainer Sch¨opf 2019/12/16 This file is maintained byA theLTEX Project team. Bug reports can be opened (category latex) at https://latex-project.org/bugs.html. 1 Introduction This file contains the external font information needed to load the Computer Modern fonts designed by Don Knuth and distributed with TEX. From this file all .fd files (font definition files) for the Computer Modern fonts, both with old encoding (OT1) and Cork encoding (T1) are generated. The Cork encoded fonts are known under the name ec fonts. 2 Customization If you plan to install the AMS font package or if you have it already installed, please note that within this package there are additional sizes of the Computer Modern symbol and math italic fonts. With the release of LATEX 2", these AMS `extracm' fonts have been included in the LATEX font set. Therefore, the math .fd files produced here assume the presence of these AMS extensions. For text fonts in T1 encoding, the directive new selects the new (version 1.2) DC fonts. For the text fonts in OT1 and U encoding, the optional docstrip directive ori selects a conservatively generated set of font definition files, which means that only the basic font sizes coming with an old LATEX 2.09 installation are included into the \DeclareFontShape commands. However, on many installations, people have added missing sizes by scaling up or down available Metafont sources. For example, the Computer Modern Roman italic font cmti is only available in the sizes 7, 8, 9, and 10pt.
    [Show full text]
  • Latex2ε Font Selection
    LATEX 2" font selection © Copyright 1995{2021, LATEX Project Team.∗ All rights reserved. March 2021 Contents 1 Introduction2 1.1 LATEX 2" fonts.............................2 1.2 Overview...............................2 1.3 Further information.........................3 2 Text fonts4 2.1 Text font attributes.........................4 2.2 Selection commands.........................7 2.3 Internals................................8 2.4 Parameters for author commands..................9 2.5 Special font declaration commands................. 10 3 Math fonts 11 3.1 Math font attributes......................... 11 3.2 Selection commands......................... 12 3.3 Declaring math versions....................... 13 3.4 Declaring math alphabets...................... 13 3.5 Declaring symbol fonts........................ 14 3.6 Declaring math symbols....................... 15 3.7 Declaring math sizes......................... 17 4 Font installation 17 4.1 Font definition files.......................... 17 4.2 Font definition file commands.................... 18 4.3 Font file loading information..................... 19 4.4 Size functions............................. 20 5 Encodings 21 5.1 The fontenc package......................... 21 5.2 Encoding definition file commands................. 22 5.3 Default definitions.......................... 25 5.4 Encoding defaults........................... 26 5.5 Case changing............................. 27 ∗Thanks to Arash Esbati for documenting the newer NFSS features of 2020 1 6 Miscellanea 27 6.1 Font substitution..........................
    [Show full text]
  • IGP® / VGL Emulation Code V™ Graphics Language Programmer's Reference Manual Line Matrix Series Printers
    IGP® / VGL Emulation Code V™ Graphics Language Programmer’s Reference Manual Line Matrix Series Printers Trademark Acknowledgements IBM and IBM PC are registered trademarks of the International Business Machines Corp. HP and PCL are registered trademarks of Hewlett-Packard Company. IGP, LinePrinter Plus, PSA, and Printronix are registered trademarks of Printronix, LLC. QMS is a registered trademark and Code V is a trademark of Quality Micro Systems, Inc. CSA is a registered certification mark of the Canadian Standards Association. TUV is a registered certification mark of TUV Rheinland of North America, Inc. UL is a registered certification mark of Underwriters Laboratories, Inc. This product uses Intellifont Scalable typefaces and Intellifont technology. Intellifont is a registered trademark of Agfa Division, Miles Incorporated (Agfa). CG Triumvirate are trademarks of Agfa Division, Miles Incorporated (Agfa). CG Times, based on Times New Roman under license from The Monotype Corporation Plc is a product of Agfa. Printronix, LLC. makes no representations or warranties of any kind regarding this material, including, but not limited to, implied warranties of merchantability and fitness for a particular purpose. Printronix, LLC. shall not be held responsible for errors contained herein or any omissions from this material or for any damages, whether direct, indirect, incidental or consequential, in connection with the furnishing, distribution, performance or use of this material. The information in this manual is subject to change without notice. This document contains proprietary information protected by copyright. No part of this document may be reproduced, copied, translated or incorporated in any other material in any form or by any means, whether manual, graphic, electronic, mechanical or otherwise, without the prior written consent of Printronix, LLC.
    [Show full text]
  • Baskerville Volume 9 Number 2
    Baskerville The Annals of the UK TEX Users Group Guest Editor: Dominik Wujastyk Vol. 9 No. 2 ISSN 1354–5930 August 1999 Baskerville is set in Monotype Baskerville, with Computer Modern Typewriter for literal text. Editing, production and distribution are undertaken by members of the Committee. Contributions and correspondence should be sent to [email protected]. Editorial The Guest Editor of the last issue of Baskerville, James Foster, maintainer of this FAQ, many people have contributed to it, explained in that issue how members of the UK-TUG Com- as is explained in the introduction below. mittee have assumed editorial responsibility for the prepara- The TEX FAQ has been published in Baskerville twice be- tion and formatting of individual numbers of the newsletter. fore, in 1994 and 1995. These are the issues of Baskerville Like James, I am deeply grateful for, and awed by, the amount which I have most often lent or recommended to other TEX of work and expertise which Sebastian Rahtz has put into users. In fact, I currently do not have the 1995 FAQ issue past issues of Baskerville. Thanks, Sebastian! because I gave it away to someone who needed it as a mat- James also mentioned the hard work which Robin ter of urgency! I am confident that this newly updated TEX Fairbairns has done over the years in producing and distrib- FAQ, now expanded to cover 126 questions, will be every bit uting Baskerville. Although Robin is now liberated from these as popular and useful as its predecessors, and will save TEX particular tasks, he is still heavily involved in supporting the users many hours of valuable time.
    [Show full text]
  • 33Rd ANNUAL REPORT 2019-2020
    COUNTRY CONDO’S LIMITED CIN: L63040TG1987PLC007811 2019-2020 33rd ANNUAL REPORT COUNTRY CONDO’S LIMITED Corporate Information BOARD OF DIRECTORS/KMP 1. Sri Y. Rajeev Reddy : Chairman & Director 2. Sri Y. Siddharth Reddy : Vice-Chairman & Director 3. Sri Y. Varun Reddy : Vice-Chairman & Director 4. Sri D. Krishna Kumar Raju : Vice-Chairman & CEO 5. Smt. Y. Manjula Reddy : Director 6. Sri K. Subramanyam Raju : Director 7. Sri G. Venkateshwar Rao : Director 8. Sri S. Bal Reddy : Director 9. Sri P. Krupavaram : Additional Director 10. Sri K. Srirama Chandra Murthy : Additional Director 11. Sri J. Laxmikanth : Company Secretary 12. Sri Gandhi Upputuri : Chief Financial Officer BANKERS: AXIS Bank Limited State Bank of India Andhra Bank Union Bank of India ICICI Bank Limited HDFC Bank Bank of India AUDITORS: P C N & Associates, Chartered Accountants Plot No.12, “N Heights” Ground Floor, Software Layout Unit Cyberabad, Hyderabad- 500081 Telangana, India REGISTERED OFFICE: # 8-2-703, Mahogany Complex Ground Floor, Amrutha Valley Road No.12, Banjara Hills Hyderabad – 500 034 Telangana, India Ph: 91-40-66533618 Email: [email protected] SHARE TRANSFER AGENTS: M/s. AARTHI CONSULTANTS PRIVATE LIMITED 1-2-285, Domalguda Hyderabad – 500 029 Telangana, India Phone: 91-40-27634445 / 27638111, Fax: 91-40-27632184 LISTING AT BSE Limited National Stock Exchange of India Limited Book Closure Dates: 20th September, 2020 to 28th September, 2020 (Both days2 inclusive) COUNTRY CONDO’S LIMITED NOTICE NOTICE is hereby given that the 33rd Annual General Meeting of the Members of M/s. Country Condo’s Limited will be held on Monday, the 28th day of September, 2020 at 02.00 P.M.
    [Show full text]
  • What Every Programmer Should Know About Unicode
    U+1F4A9 = � What every Programmer should know about � Unicode � 2. Semester Medieninformatik Prof. Dr.-Ing. Carsten Bormann [email protected] © 2008–2013 Carsten Bormann 1 Textuelle Information – Zeichen Primäre Informationsquelle im Web: Text Zeichen: Buchstaben, Ziffern, Zeichensetzung, Sonderzeichen Welche Zeichen gibt es? Zeichenvorrat Wie werden sie digital kodiert? Zeichensatz Wie sehen sie aus? Font (Schrift, Schriftart) © 2008–2013 Carsten Bormann 3 Digitale Kodierung Kodierung über Kette von Bits – 0 oder 1 – n Bits 2n Möglichkeiten (25 = 32, 27 = 128, 28 = 256, ...) Beispiel: Zahlen © 2008–2013 Carsten Bormann 4 Zeichencodes: Baudot (IA2, ITU-T S.1) Telegrafie (50 bit/s): 5 Bits 32 Symbole A-Z = 26 Ziffern + Satzzeichen = 21 6 Symbole eindeutig 26 Symbole doppelt belegt Bu/Zi zum Umschalten © 2008–2013 Carsten Bormann 5 Zeichencodes: 7-Bit-Codes 7 Bit pro Zeichen (eins bleibt frei für Parity) ASCII ISO 646 = IA5 ~ DIN 66003 – Nationale Varianten: nicht alle Codes gleich belegt Steuerzeichen: CR, LF, ... (0 – 31) Schriftzeichen: !“#$...A-Z...a-z... (32* – 127*) © 2008–2013 Carsten Bormann 6 © 2008–2013 Carsten Bormann 7 8-Bit-Codes Problem: Nationale Varianten unhandlich – Europäische Integration… 8. Bit ungenutzt Idee: 2 Tabellen Linke Tabelle ~ ASCII © 2008–2013 Carsten Bormann 8 8-bit-Codes ISO 6937: – Linke Tabelle ISO 646:1973 (ASCII ohne $) – Rechte Tabelle für alle lateinischen Sprachen Diakritische Zeichen Besondere/zusammengesetzte Zeichen ISO 8859-n – Linke Tabelle ASCII (ISO 646:1990) – Rechte Tabelle in ca. 15 Varianten (ISO 8859-1 bis -15) © 2008–2013 Carsten Bormann 9 © 2008–2013 Carsten Bormann 10 © 2008–2013 Carsten Bormann 11 © 2008–2013 Carsten Bormann 12 Klassische Zeichen-Codes Telegrafie: 5-Bit-Code, 25 = 32 – Durch Doppelbelegung 26+26+6 = 58 Zeichen ASCII/ISO 646: 7-Bit-Code, 27 = 128 – C-Set: 32 Steuerzeichen; G-Set: 96 (94) Schriftzeichen ISO 6937: 8-Bit-Code, 28 = 256 – 2 C-Sets, 2 G-Sets; ca.
    [Show full text]
  • 1984 Ausgegeben Zu Bonn Am 4
    Bundesgesetzblatt 809 Teil 1 Z 5702 A 1984 Ausgegeben zu Bonn am 4. Juli 1984 Nr. 27 Tag Inhalt Seite 25. 6. 84 Zweite Verordnung zur Änderung der Bezeichnungsverordnung . 809 2121-50-1-17 ' 26. 6. 84 Verordnung zur Durchführung von regelmäßigen Datenübermittlungen der Meld.~behorden an Behörden oder sonstige öffentliche .~tellen des Bundes (Zweite Meldedaten-Ubermittlungs- verordnung des Bundes - 2. BMeldDUV) .................... ; . 810 neu: 210-4-2 27. 6. 84 Verordnung über die Prüfung zum anerkannten Abschluß Geprüfter Industriemeister/ Geprüfte Industriemeisterin - Fachrichtung Kunststoff und Kautschuk . 847. neu: 800-21-7-27 29.6.84 Achtunddreißigste Bekanntmachung über die Wechsel- und Scheckzinsen 855 neu: 4132-3-1-38 Hinweis auf andere Verkündungsblätter Rechtsvorschriften der Europäischen Gemeinschaften . 855 Die Anlage zur Zweiten Verordnung zur Änderung der Bezeichnungsverordnung vom 25. Juni 1984 wird als Anlageband zu dieser Ausgabe des Bundesgesetzblattes ausgegeben. Abonnenten des Bundesgesetzblattes Teil I wird der Anlageband auf Anforderung kostenlos übersandt. Zweite Verordnung zur Änderung der BezeichnungsverQrdnung Vom 25.Juni 1984 Auf Grund des § 10 Abs. 6 Nr. 1 Satz 2 des Arznei­ Artikel 2 mittelgesetzes vom 24. August 1976 (BGl;3I. 1 S. 2445, Diese Verordnung gilt nach § 14 des Dritten Über• 2448) wird verordnet: leitungsgesetzes in Verbindung mit § 99 des Arznei­ mittelgesetzes auch im Land Berlin. Artikel 1 Die Bezeichnungsverordnung vom 15. September Artikel 3 1980 (BGBI. 1S. 1736), geändert durch die Verordnung vom 15. Dezember 1981 (BGBI. I S. 1417), wird wie folgt (1) Diese Verordnung tritt am 1. Oktober 1984 in geändert: Kraft. 1 . Dem § 1 wird folgender Satz 2 angefügt: (2) Fertigarzneimittel, die wirksame Bestandteile ent­ halten, deren Bezeichnung in der Anlage zu dieser Ver­ „Sofern einer Bezeichnung eine Angabe hinsichtlich ordnung bestimmt ist, und die seit dem 1.
    [Show full text]
  • A Zahlensysteme
    A Zahlensysteme Außer dem Dezimalsystem sind das Dual-,dasOktal- und das Hexadezimalsystem gebräuchlich. Ferner spielt das Binär codierte Dezimalsystem (BCD) bei manchen Anwendungen eine Rolle. Bei diesem sind die einzelnen Dezimalstellen für sich dual dargestellt. Die folgende Tabelle enthält die Werte von 0 bis dezimal 255. Be- quemlichkeitshalber sind auch die zugeordneten ASCII-Zeichen aufgeführt. dezimal dual oktal hex BCD ASCII 0 0 0 0 0 nul 11111soh 2102210stx 3113311etx 4 100 4 4 100 eot 5 101 5 5 101 enq 6 110 6 6 110 ack 7 111 7 7 111 bel 8 1000 10 8 1000 bs 9 1001 11 9 1001 ht 10 1010 12 a 1.0 lf 11 101 13 b 1.1 vt 12 1100 14 c 1.10 ff 13 1101 15 d 1.11 cr 14 1110 16 e 1.100 so 15 1111 17 f 1.101 si 16 10000 20 10 1.110 dle 17 10001 21 11 1.111 dc1 18 10010 22 12 1.1000 dc2 19 10011 23 13 1.1001 dc3 20 10100 24 14 10.0 dc4 21 10101 25 15 10.1 nak 22 10110 26 16 10.10 syn 430 A Zahlensysteme 23 10111 27 17 10.11 etb 24 11000 30 18 10.100 can 25 11001 31 19 10.101 em 26 11010 32 1a 10.110 sub 27 11011 33 1b 10.111 esc 28 11100 34 1c 10.1000 fs 29 11101 35 1d 10.1001 gs 30 11110 36 1e 11.0 rs 31 11111 37 1f 11.1 us 32 100000 40 20 11.10 space 33 100001 41 21 11.11 ! 34 100010 42 22 11.100 ” 35 100011 43 23 11.101 # 36 100100 44 24 11.110 $ 37 100101 45 25 11.111 % 38 100110 46 26 11.1000 & 39 100111 47 27 11.1001 ’ 40 101000 50 28 100.0 ( 41 101001 51 29 100.1 ) 42 101010 52 2a 100.10 * 43 101011 53 2b 100.11 + 44 101100 54 2c 100.100 , 45 101101 55 2d 100.101 - 46 101110 56 2e 100.110 .
    [Show full text]
  • Distributing Liability: the Legal and Political Battles of Y2K LSE Research Online URL for This Paper: Version: Accepted Version
    Distributing liability: the legal and political battles of Y2K LSE Research Online URL for this paper: http://eprints.lse.ac.uk/103330/ Version: Accepted Version Article: Mulvin, Dylan (2020) Distributing liability: the legal and political battles of Y2K. IEEE Annals of the History of Computing. ISSN 1058-6180 Reuse Items deposited in LSE Research Online are protected by copyright, with all rights reserved unless indicated otherwise. They may be downloaded and/or printed for private study, or other acts as permitted by national copyright laws. The publisher or other rights holders may allow further reproduction and re-use of the full text version. This is indicated by the licence information on the LSE Research Online record for the item. [email protected] https://eprints.lse.ac.uk/ Distributing Liability The legal and political battles of Y2K Dylan Mulvin* • Dylan Mulvin is an Assistant Professor in the Department of Media and Communications at the London School of Economics and Political Science – London, UK WC2A 2AE. E-mail: [email protected]. Abstract In 1999 the United States Congress passed the Y2K Act, a major—but temporary— effort at reshaping American tort law. The Act strictly limited the scope and applicability of lawsuits related to liability for the Year 2000 Problem. This paper excavates the process that led to the Act, including its unlikely signature by President Clinton. The history presented here is based on a reconsideration of the Y2K crisis as a major episode in the history of computing. The Act, and the Y2K crisis more broadly, expose the complex interconnections of software, code, and law at the end of the 20th century, and, taken seriously, argue for the appreciation of the role of liability in the history of technology.
    [Show full text]