����������������������������

���� ��������������������������

��� ����� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ��������������������������� ������������������������������������ �������������������������������������

��������������������� (���)������������ ������������������������������������� ������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������ �

��� ����������

Ethnologue �������� Web ���([14]) ��������������� ���������������� 6912 ������ (��)�6900 ������ ��������������������������� 83 �� (������ � 1.2%) �������������������� (79.46%) ��������

5 ������������ (82.1%) ������������� 10 ������� ����������������������� 1.16%�������� ��������1950 ���� 2000�3000 ([5])��������������� ������������������������������������� �������������������������������������

���������50 ��������������������������� ������������������������������������� �������������������������������������

������������������������������������100 ������������������������������ ([7], [8])� � ��������������(endangered species) ������������� ����������(���)�������(languages in danger of disappearing)�� ���������(endangered languages) ���������� ([16])����� �������������������������������������

����������������� (��������)���������� ������������������������������������� ������������������������������������� ��������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������ �������������������������������������

6 ������������������������������������� ������������������������������������� ������������������ ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

��(language documentation)������������(documentary linguistics) �� ����� ([11], [15])��������������� (revitalization) ����� ���������������

��� �����������������

����������������������� 10 ������������ ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� �� ������������������������������������ �������������������������������������

�� (phonetic transcription)������������������������� ������������������������������������� ��������������������������������

������������������� (phonetic alphabet; cf. [6]) �����

7 ��������������������� (����������)����� �������������������������������������

��(language documentation) ��������� (documentary linguistics)����� ����������������������������� 10 ������� ������������������������������������� ��������������������� ������������������������������������

������������(����)�����

��� ���� (������)���������� ([9] p.104) ��� �������������� ([10] p.364) ��� ���� (����, ���)����������� ([12] p.36-37) ��� ����� (��������)������������� ([13] p.175)

�������� (phonemic transcription)����� (phonetic transcription)���� ������������������� (��)��������������� �������������������������������������� �������������������������������������

���������������� (�����) ��������������� (����������������)�����(��������������� �)�������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ����������������

to�to jüla-m kudalt-m-em ok �u [��]

8 �� ��-�� ����-��-�� ��-�� �� [��] ��������������� [��]

������������������������������������

�������������������� (�����) ����������� ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��� � ������������������������������������ ������������������������������������� �������������������������������������

����������������������20 �������������� ������������������������������������� ������������������������������������� �����������������������

��� �������������� �� ������������ ������������������������������������ ������������������������������������� ��������������������������������������

����������������� (������������������� ������������) ������������������������ ��������������������������������������

9 ����������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������ ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

������������������������ camera-ready ������� �������������������������������������

��� (�����) ��������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

������� Unicode �������������������������� ������������������������������������� ������������������������������������ ������������������������������������� �������������������������������������

10 ����������������������������������Unicode � XML������������������ (language technology, LT) ���� ������������������������������������� ������������������������������������� �������������������

����������������� Unicode ��������������� ������������������������������������� ������������������������������������� �������������������������������������

����������([3][4])�������������������� Perl �� �������������������������������������

�� Unicode ������������������������������� ��� ������������������������������������ �������������������������������������

��������������������������Windows XP ����� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������ ������������������������������������� ���������������������������������� ������������������������������������

����������������������� ([17][18]) ��������� ������������������������������������� �������������������������������������

11 ������������������������������������� ������������������������������������� �� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ����� ������������������������������������

���� Unicode ����������������������������� �������������������� ([1], [2],[3]) ����������� �������������������� (���������������� [13]) ����������������������������� Unicode �� �������������������������������������

�� (� 290 ���; [12]) ������������������������� �����

2006 ���������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

12 ������������������������������������� ������������������������������������� �������������������������������������

�������������������TEI ���������������� �����XML ������������������������������ ������������������������������������� �����������������

�����������XML ���������������������� ������������������������������������� ������������������������������������� �������������������������������������

� BNC ���� (British National Corpus) � XML ��������������� �������XML ���������������������������� ��������

��� ��������������������� ������������������������������������ ������������������������������������� ��������������������������������������

�����WWW ���������������� (LT) ���������� ������������������������������������� �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

13 ������������������������������������� ������������������������������������� ��������������������������������� � ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������� ������������������������������ ������������������������������������

������� (language technology) �������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������� ������������������������������������� �������

��� ��� �� ����������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

14 ������������������������������������� ������������������������������������� �����

���������������������� philology ��������� ����������Philology ����������������������� ������� (1874-1916) ������������������������ �������������������������������������

����������������� 20 ������� linguistics ������ ������������������������������������� �������������������������������������� ������������������������� ������������������������������������ ������������������������������������� ������������������������������������� �������������������������������������

������������������������������(computational philology) ��������������������������������� ������������������������������������� �������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

15 �������������������������������������� ������������������������������������� ������������������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ���� ������������������������������������ ������������������������������������ �������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��������������������� ������������������������������������

�������������������������� (�����) ����� �������������������������������������

�����������������������������(linguistic document) ������������������������������������� ������������������������������������� ������������������������������������� �������������������������������������

16 ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ������������������������������������� ��������������� ������������������������������������ ������������������������������������� ������������������������������������� ������������������������������������� ���������������������������������

����������������������������������������� ������������������������������������������ ����������������������������������������� �����������������������������������������

����������������������������������������� ���������������������������������������� ����������������������������������������� ����������������

�����������1990 ������������� endangered languages ����� �����������������������������������������

������������

�������������������������������(International Phonetic

17 Alphabet, IPA) ����������� (International Phonetic Association) ���� 1886 ��

������������������ 1877 ���19 ����� 20 ��������� ����������������������������������������� �����������������������������������������

1910 ��������

�������� ����

[1] ���� 2002������������������������������ �� �����������������(�� 11�12 �������������� (A)�� ������), pp.51-68 [2] ���� 2006����������������Uralica, Vol. 14 (2006) [���] [3] ���� 2006������������������������� ������ ���������������������������(�� 15�17 ��������

������ (A)��������), pp.1-30 [4] ��������������� 2003 �������������� Unicode �� ��(������������������������������� B010) [5] ��������� (��) 2006�������������� [6] �������������� �����, 2003 [7] ����������� 2004������� � ��������������� ����

[8] ������������������ 2001��������� � ������ ������������

[9] ����� 2006������������������������������ ���

[10] ���������� 1995���������� ����������(5)� ��� ������� [11] Nikolaus P. Himmelmann 1998. “Documentary and descriptive linguistics,” in �����������,� Vol.36, No.1: 161-95.

18 [12] �. ������� � �. �������� 1969. ������� �������� ����. ������������ “�����”,� ������������� ���������.

[13] Jaan Õispuu 1990. ������� ������� �������� Tallinna Pedagoogiline Instituut.

[14] http://www.ethnologue.com (Ethnologue. Languages of the World)

[15] http://www.hrelp.org/documentation (Language Documentation, SOAS)

[16] http://www.tooyoo.l.u-tokyo.ac.jp/ichel/ichel-j.html (�����������)

[17] http://www.loc.gov/standards/iso639-2/langhome.html (Codes for the Representation of Names of Languages)

[18] http://www.sil.org/iso639-3/ (ISO 639 Code Tables, SIL)

19

図2 ウデヘ語の言語資料 ([9] p.104)

21 図3 アイヌ語の言語資料 ([10] p.364)

22 図4 ベプス語の言語資料 ([12] p.36-37)

23 図5 カレリア語の言語資料 ([13] p.175)

24 図5 カレリア語の言語資料 ([13] p.175) 図6

��������(UPA)�����(��)��Unicode �������������

/ sлepuvutti̮h šilˊmät / sлepuvutti̮h // jo ka počti· vuaž hänel̄ˊ // vuaž // ükś šilˊmäšt čirkzen ńägöw / a toiń / toiń ei ńäw // i / i apera·cid ei ruvet ruadmah // ńäil̀ˊ oллah omat / moskuš̄ // i to ei ottuče // mōž fofśe·rikot // ràzv čirkzen ńägüw // ain šanow // « kuin vihmuw / fośśendah nakroičet / vròd́ on soлni̮škań » // t́üt̀ˊ ei ńiä // ei // ühel̄ˊ šilˊmäl̄ˊ // ükśin elˊ‿i / hänen kod́in on atalˊe·nneśt ́ kaik̀ külˊäš̀ // a heidäh i / i kaik̀ šiäl̀ˊ / on seičmen kod́ī / i koih mütˊtˊeń oška / šin vanhat // nu händ ei kačot /što hiän on / alˊ eлoš // šid mändih / a hiän kuaлiä //

24 25

�����������������([17][18] ���)

ISO 639-2 & 639-1 ISO/DIS 639-3 ��������(����) Finno-Ugrian (Other) fiu ������ Estonian est (et) est ������� Finnish fin (fi) fin ������� Meänkieli fit* ����� Karelian krl krl ����� Livvi [Olonetsian] olo* ���� Vepsian vep* ������ Ingrian [Izhorian] izh* ���� Votic [Votian] vot vot ���� Liv [Livonian] liv* ����(����) Sami languages (Other) smi �������� smn smn ������� smj smj ����� sme (se) sme ��������� sms sms ����� sma sma �������� sia* ������� sjk* ���������� sjd* �������� sje* ������� sjt* �������� sju* ��� Mari chm chm ���� Eastern Mari mhr* ���� Western Mari mrj* ����� Erzya myv myv ����� Moksha mdf mdf ��� Komi kom (kv) kom ������ Udmurt udm udm ������ Hungarian hun (hu) hun ����� Khanty kca* ���� Mansi mns* ����� Selkup sel sel ���� Nenets nen* ����� Nganasan nio*

[�] * ������������������(���)���

27