����������������������������
���� ��������������������������
��� ����� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ��������������������������� ������������������������������������ �������������������������������������
��������������������� (���)������������ ������������������������������������� ������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������ �
��� ����������
Ethnologue �������� Web ���([14]) ��������������� ���������������� 6912 ������ (��)�6900 ������ ��������������������������� 83 �� (������ � 1.2%) �������������������� (79.46%) ��������
5 ������������ (82.1%) ������������� 10 ������� ����������������������� 1.16%�������� ��������1950 ���� 2000�3000 ([5])��������������� ������������������������������������� �������������������������������������
���������50 ��������������������������� ������������������������������������� �������������������������������������
������������������������������������100 ������������������������������ ([7], [8])� � ��������������(endangered species) ������������� ����������(���)�������(languages in danger of disappearing)�� ���������(endangered languages) ���������� ([16])����� �������������������������������������
����������������� (��������)���������� ������������������������������������� ������������������������������������� ��������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������ �������������������������������������
6 ������������������������������������� ������������������������������������� ������������������ ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
��(language documentation)������������(documentary linguistics) �� ����� ([11], [15])��������������� (revitalization) ����� ���������������
��� �����������������
����������������������� 10 ������������ ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� �� ������������������������������������ �������������������������������������
�� (phonetic transcription)������������������������� ������������������������������������� ��������������������������������
������������������� (phonetic alphabet; cf. [6]) �����
7 ��������������������� (����������)����� �������������������������������������
��(language documentation) ��������� (documentary linguistics)����� ����������������������������� 10 ������� ������������������������������������� ��������������������� ������������������������������������
������������(����)�����
��� ���� (������)���������� ([9] p.104) ��� �������������� ([10] p.364) ��� ���� (����, ���)����������� ([12] p.36-37) ��� ����� (��������)������������� ([13] p.175)
�������� (phonemic transcription)����� (phonetic transcription)���� ������������������� (��)��������������� �������������������������������������� �������������������������������������
���������������� (�����) ��������������� (����������������)�����(��������������� �)�������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ����������������
to�to jüla-m kudalt-m-em ok �u [��]
8 �� ��-�� ����-��-�� ��-�� �� [��] ��������������� [��]
������������������������������������
�������������������� (�����) ����������� ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��� � ������������������������������������ ������������������������������������� �������������������������������������
����������������������20 �������������� ������������������������������������� ������������������������������������� �����������������������
��� �������������� �� ������������ ������������������������������������ ������������������������������������� ��������������������������������������
����������������� (������������������� ������������) ������������������������ ��������������������������������������
9 ����������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������ ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
������������������������ camera-ready ������� �������������������������������������
��� (�����) ��������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
������� Unicode �������������������������� ������������������������������������� ������������������������������������ ������������������������������������� �������������������������������������
10 ����������������������������������Unicode � XML������������������ (language technology, LT) ���� ������������������������������������� ������������������������������������� �������������������
����������������� Unicode ��������������� ������������������������������������� ������������������������������������� �������������������������������������
����������([3][4])�������������������� Perl �� �������������������������������������
�� Unicode ������������������������������� ��� ������������������������������������ �������������������������������������
��������������������������Windows XP ����� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������ ������������������������������������� ���������������������������������� ������������������������������������
����������������������� ([17][18]) ��������� ������������������������������������� �������������������������������������
11 ������������������������������������� ������������������������������������� �� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ����� ������������������������������������
���� Unicode ����������������������������� �������������������� ([1], [2],[3]) ����������� �������������������� (���������������� [13]) ����������������������������� Unicode �� �������������������������������������
�� (� 290 ���; [12]) ������������������������� �����
2006 ���������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
12 ������������������������������������� ������������������������������������� �������������������������������������
�������������������TEI ���������������� �����XML ������������������������������ ������������������������������������� �����������������
�����������XML ���������������������� ������������������������������������� ������������������������������������� �������������������������������������
� BNC ���� (British National Corpus) � XML ��������������� �������XML ���������������������������� ��������
��� ��������������������� ������������������������������������ ������������������������������������� ��������������������������������������
�����WWW ���������������� (LT) ���������� ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
13 ������������������������������������� ������������������������������������� ��������������������������������� � ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������� ������������������������������ ������������������������������������
������� (language technology) �������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������� ������������������������������������� �������
��� ��� �� ����������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
14 ������������������������������������� ������������������������������������� �����
���������������������� philology ��������� ����������Philology ����������������������� ������� (1874-1916) ������������������������ �������������������������������������
����������������� 20 ������� linguistics ������ ������������������������������������� �������������������������������������� ������������������������� ������������������������������������ ������������������������������������� ������������������������������������� �������������������������������������
������������������������������(computational philology) ��������������������������������� ������������������������������������� �������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
15 �������������������������������������� ������������������������������������� ������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ���� ������������������������������������ ������������������������������������ �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��������������������� ������������������������������������
�������������������������� (�����) ����� �������������������������������������
�����������������������������(linguistic document) ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������
16 ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ���������������������������������
�
����������������������������������������� ������������������������������������������ ����������������������������������������� �����������������������������������������
����������������������������������������� ���������������������������������������� ����������������������������������������� ����������������
�����������1990 ������������� endangered languages ����� �����������������������������������������
������������
�������������������������������(International Phonetic
17 Alphabet, IPA) ����������� (International Phonetic Association) ���� 1886 ��
������������������ 1877 ���19 ����� 20 ��������� ����������������������������������������� �����������������������������������������
1910 ��������
�������� ����
[1] ���� 2002������������������������������ �� �����������������(�� 11�12 �������������� (A)�� ������), pp.51-68 [2] ���� 2006����������������Uralica, Vol. 14 (2006) [���] [3] ���� 2006������������������������� ������ ���������������������������(�� 15�17 ��������
������ (A)��������), pp.1-30 [4] ��������������� 2003 �������������� Unicode �� ��(������������������������������� B010) [5] ��������� (��) 2006�������������� [6] �������������� �����, 2003 [7] ����������� 2004������� � ��������������� ����
[8] ������������������ 2001��������� � ������ ������������
[9] ����� 2006������������������������������ ���
[10] ���������� 1995���������� ����������(5)� ��� ������� [11] Nikolaus P. Himmelmann 1998. “Documentary and descriptive linguistics,” in �����������,� Vol.36, No.1: 161-95.
18 [12] �. ������� � �. �������� 1969. ������� �������� ����. ������������ “�����”,� ������������� ���������.
[13] Jaan Õispuu 1990. ������� ������� �������� Tallinna Pedagoogiline Instituut.
[14] http://www.ethnologue.com (Ethnologue. Languages of the World)
[15] http://www.hrelp.org/documentation (Language Documentation, SOAS)
[16] http://www.tooyoo.l.u-tokyo.ac.jp/ichel/ichel-j.html (�����������)
[17] http://www.loc.gov/standards/iso639-2/langhome.html (Codes for the Representation of Names of Languages)
[18] http://www.sil.org/iso639-3/ (ISO 639 Code Tables, SIL)
19
図2 ウデヘ語の言語資料 ([9] p.104)
21 図3 アイヌ語の言語資料 ([10] p.364)
22 図4 ベプス語の言語資料 ([12] p.36-37)
23 図5 カレリア語の言語資料 ([13] p.175)
24 図5 カレリア語の言語資料 ([13] p.175) 図6
��������(UPA)�����(��)��Unicode �������������
/ sлepuvutti̮h šilˊmät / sлepuvutti̮h // jo ka počti· vuaž hänel̄ˊ // vuaž // ükś šilˊmäšt čirkzen ńägöw / a toiń / toiń ei ńäw // i / i apera·cid ei ruvet ruadmah // ńäil̀ˊ oллah omat / moskuš̄ // i to ei ottuče // mōž fofśe·rikot // ràzv čirkzen ńägüw // ain šanow // « kuin vihmuw / fośśendah nakroičet / vròd́ on soлni̮škań » // t́üt̀ˊ ei ńiä // ei // ühel̄ˊ šilˊmäl̄ˊ // ükśin elˊ‿i / hänen kod́in on atalˊe·nneśt ́ kaik̀ külˊäš̀ // a heidäh i / i kaik̀ šiäl̀ˊ / on seičmen kod́ī / i koih mütˊtˊeń oška / šin vanhat // nu händ ei kačot /što hiän on / alˊ eлoš // šid mändih / a hiän kuaлiä //
24 25
�����������������([17][18] ���)
ISO 639-2 & 639-1 ISO/DIS 639-3 ��������(����) Finno-Ugrian (Other) fiu ������ Estonian est (et) est ������� Finnish fin (fi) fin ������� Meänkieli fit* ����� Karelian krl krl ����� Livvi [Olonetsian] olo* ���� Vepsian vep* ������ Ingrian [Izhorian] izh* ���� Votic [Votian] vot vot ���� Liv [Livonian] liv* ����(����) Sami languages (Other) smi �������� Inari Sami smn smn ������� Lule Sami smj smj ����� Northern Sami sme (se) sme ��������� Skolt Sami sms sms ����� Southern Sami sma sma �������� Akkala Sami sia* ������� Kemi Sami sjk* ���������� Kildin Sami sjd* �������� Pite Sami sje* ������� Ter Sami sjt* �������� Ume Sami sju* ��� Mari chm chm ���� Eastern Mari mhr* ���� Western Mari mrj* ����� Erzya myv myv ����� Moksha mdf mdf ��� Komi kom (kv) kom ������ Udmurt udm udm ������ Hungarian hun (hu) hun ����� Khanty kca* ���� Mansi mns* ����� Selkup sel sel ���� Nenets nen* ����� Nganasan nio*
[�] * ������������������(���)���
27