成龙's profileDragon's BlogPhotosBlogLists Tools Help

成龙

邛笼  
Photo 1 of 6
More albums (1)

长篇语料格式 (以蒲溪羌语为例)

A TEXT Sample:  

                              qhu`      sa   

                              妖魔      

 

(1)   tse  qe$-X`         tsEStu     Xsi-la        zE-i-u.

    这   以前-LOC    兄弟           -CL         -CSM-HRS 

    从前有三个兄弟。

(2)   vamie         a-la          zE-i-u.

    妈妈           -CL       -CSM-HRS

    有个母亲。

(3)    tha-l-go             th`              vamie    %i       tsi-u        th`     tsEStu   

       -CL-LOC        3sg:GEN     妈妈       房子   -HRS         兄  

        Xsi-la        Z`li       syil`-sE-u.      

        -CL      外面    --HRS

        那样他们母亲在家看房子,他们三兄弟出去外面转。

(4)   tsa-l          th`    sEStu   Xa-ke-i                               go 

       -CL              兄弟     DIR--CSM:3pl              LNK     

        tsa-l       vamie      %iu      zE-u.

        -CL    妈妈                  -HRS

        这样那几弟兄出去了,这样母亲在家。

(5)   qhu`-dzu`              kue-lu-Ni             iankuatsE-go     laqe  

       妖怪-INDEF            DIR--ADV       腋下-LOC            吸管  

         Se-tshu-Ni             vamie      s`     %he-u.

         DIR--ADV           妈妈           -HRS

    妖魔来后,把吸管插在母亲的腋下吸母亲的 

Unicode问答

问:什么是Unicode?
答:Unicode给每个字符提供了一个唯一的数字,不论是什么平台,不论是什么程序,不论什么语言。Unicode标准已经被这些工业界的领导们所采用,例如:Apple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisys和其它许多公司。最新的标准都需要Unicode,例如XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WML等等,并且,Unicode是实现ISO/IEC 10646的正规方式。许多操作系统,所有最新的浏览器和许多其他产品都支持它。Unicode标准的出现和支持它工具的存在,是近来全球软件技术最重要的发展趋势。

问:为什么使用Unicode?
答:基本上,计算机只是处理数字。它们指定一个数字,来储存字母或其他字符。在创造Unicode之前,有数百种指定这些数字的编码系统。没有一个编码可以包含足够的字符:例如,单单欧州共同体就需要好几种不同的编码来包括所有的语言。即使是单一种语言,例如英语,也没有哪一个编码可以适用于所有的字母,标点符号,和常用的技术符号。这些编码系统也会互相冲突。也就是说,两种编码可能使用相同的数字代表两个不同的字符,或使用不同的数字代表相同的字符。任何一台特定的计算机(特别是服务器)都需要支持许多不同的编码,但是,不论什么时候数据通过不同的编码或平台之间,那些数据总会有损坏的危险。

问:举个例子吧?

答:比如,简体中文(GB)、繁体中文(BIG5)、日文中,“赵”都是一个字,但是编码不同。在不同的编码下,BIG5的赵是0xBBAF,而0xBBAF在GB里面就被显示为“化”,这就是乱码。而Unicode采用统一的编码,“赵”只有一个,不必管他在哪种文字里。

问:Unicode的优点是什么?
答:举一个最明显的例子就是Windows 2000/XP以及微软Office2000及其后的产品。因为这些软件都是Unicode内核,因此,无论何种文字,都可以在上面正常显示,而且是同屏显示。以前,简体中文的Word文件拿到英文版打开就会是乱码,简体中文的程序在Windows英文版上运行会出现乱码,而现在一切都解决了。

问:国际音标为什么会不能相互转换?
答:由于国际音标符号众多,以前我们用的国际音标都不是根据unicode进行编码的,因此一套国际音标就不能转换成另一套国际音标。 目前已经出现根据unicode进行编码的国际音标,如国内上海师大潘悟云和广西大学李龙联合开发的云龙国际音标输入法2.0和美国世界少数民族语文研究院SIL开发的Doulos SIL或者美国加州大学伯克莱分校汉藏语词源词典开发的STEDTU音标。尽管还不很稳定或不够完善,但基本上能满足绝大部分语言语音符号的输入。下面两个帖子,我们简要介绍两种Unicode IPA各自输入方法及其优缺点。

云龙国际音标输入法

云龙国际音标输入法由上海师范大学潘悟云与广西大学李龙合作研发。潘悟云负责IpaPanNew国际音标字体的制作以及输入法的编码设计,李龙负责输入法的程序实施。

字体中除了国际音标以外,还包括东亚语区经常使用到的字符,如八思巴文、藏文、越南文等字母。今后还将陆续加入其他东亚语言的符号。

音标字体与美国世界少数民族语文研究院(SIL)所作的Doulos SIL字体相同,与Word的默认英文字体保持一致。所以,如果用户分别在Word的英文状态与音标输入状态下输入音标,不会造成字体的差别。

本字体用Unicode编码,很容易转换成用Unicode编码的其他音标字体。

以前用IpaPanADD输入的文章,可以到http://www.eastling.org/resource.htm下载转换音标的宏,装到Word的宏中运行,就可以实现音标的转换。

 

音标输入方法可以使用音标编码或者在音标点击所要输入的音标方式来输入:

1)在音标表的左下角输入代码,如下图输入a,会出现与a有相似字形的音标,按数字标号,即可输入音标。按PgDnPgUp键,可以翻页。

2)输入音标的全代码,再按空格键,可以输入唯一的音标,不需要选择数字标号。如音标ɐ的全代码是ad,键入ad,再按空格键,就可以输入音标

                                   

国际音标Doulos SIL/STEDU 输入法

    Doulos SIL 4.0.14 font (美国世界少数民族语文研究院开发的)和STEDU Font 5.1.7 for Windows (Unicode 4) (美国加州大学伯克莱分校汉藏语词源词典开发的)音标也都是根据Unicode进行编码的。都要用IPA (UK) Unicode Keyman Keyboard 输入,可以在http://www.phon.ucl.ac.uk/resource/phonetics/下载安装输入法。其缺陷就是这个键盘可输入的音标比较少,还没有云龙输入法全。