不同的方言注音的难度不同,工作量差别也很大只要捉摸出该方言的发音规律可以做到事半功倍。一个字如果只有一种发音方式这当然好办。不少的字或词在各种环境中发音方式会不同,甚至发音的方式不止两种。针对这种情况本系统使用了下面的处理方案:

    1.姓氏优先:由于人是姓名是无法捉摸的而且大多数姓名不能组成词组。所以必须将姓氏的读法列为“优先的发音”。

    2.单字动词优先:类似“持”、“可”、“化”、“为”、“怕”等字。因为它们后面的词或句是无法预测的。所以必须将它们的读法列为“优先的发音”。

    3.单字形容词优先:类似“巧”、“美”、“老”、……等等。它们后面的词句也是变幻莫测的。因此尽可能将它们的读法列为“优先的发音”。

    4.用句号代表字或词在句尾的读法:例如:潮汕话的“好”在句前或句中间往往读为(ho2)(是单字形容词),但只要它是单独一个字组成的句或在句尾它的读法往往读成(ho4)。这种情况我们可以在多音词组库内将“好。”={ho4}[$$]()<>  (也可以在“字音分析”的尾字发音给它注音)。而“优先发音”则指定为(ho2)。〔它还有另外的读法比如“爱好”等,在多音词组内注音则可〕。[这种方法注音的字或词对于各种符号的句都有效,请不要用其它符号代替句号。]

    5.地方特色库含有要处理词的一部分:例如潮汕话中,遇到类似“打瞌睡”这样的词由于“瞌睡”在地方特色库内被注音为“眼涩”,导致“打瞌睡”被读为“打眼涩”。为了解决这样的问题,可以在地方特色库内添加一个“打瞌睡”=“打瞌睡”问题就解决了

  6.不可避免的错误的解决方案:按照目前的科技水平,电脑还不能像科幻小说里描述的机器人那样具有自己的思维。电脑只是在高速的运行程序设计者们灌输给它的程序。在本系统中虽然采取了不少解决发音问题的方案,但一些错误是无法避免的。比如潮汕话的“一点名声”在注音处理前会读成“zie_3 dian_2 mi_a5 si_a1”。因为它遇到了“点名”这个已经注音了的词。“dian_2 mi_a5 ”获得了优先发音的权力而导致了发音错误。要正确的读出“zie_3 dian_2 mi_a3 si_a1”则必须将“一点名声”作为一个四字多音词注音一次(字数越多的多音词优先权更高)。在浩瀚的词组组合中肯定会或多或少的遇到这样的情况。我们让用户拥有注音的权力来对付这些问题。(当然我们会不断的升级我们的方言库,让用户获得最高识别能力的模块。)

返回说明书页