考虑好了动手的方向,陈家涛开始查看现有的翻译软件的情况。
机器翻译的代表公司有金山公司,的金山翻译和网易有道的有道翻译等等。
这些翻译能够一定程度上的翻译文本文件,并不同做到同声传译。
同时就算是文本翻译,文字翻译还会出现大量的病句和词不达意的情况。
因为各个国家的文化背景,语言逻辑各有不同,从而翻译机器经常出现表意不清语法错误的问题。
陈家涛开始琢磨,要是能弄个出个相当智能,准确率达99%以上的翻译呢?
陈家涛拿出笔记本打开‘汉语言编译器界面’,为了和沈志斌教授发明的汉语言编程语言区别开来。
陈家涛给系统提供的这套语言起名‘盘古’语言,反正陈家涛是目前地球上唯一会使用的这个语言的人,他想起什么名字就起什么。
华夏的神话故事中‘盘古’开天辟地,陈家涛希望这个语言和盘古一样,在计算机领域重新开天辟地一次。
陈家涛翻出当初盘古语言的说明书,陈家涛之前蠢蠢欲动的心思又出现了,他需要的不仅是一个翻译软件。
而是一个能够帮助到自己的人工智能。
陈家涛开始动手,首先在编译的界面上按照说明书所示,介绍着应用软件的总说明——能够准确的互相翻译中英文。
接下来就是程序具体的书写。
陈家涛归纳,市面上的翻译软件个翻译机最大的缺陷有两个。
一个是词不达意,无论是英语还是汉语,一个词通常都会有很多意思,不同的语境有不同的解释。
但是翻译机器并不能完全了解人类表达的意思,很多时候会将词语的意思翻译的十分精准,但是放在句子中笑话百出。
就比如网友给外国人出的四级汉语题:
小王给局长送红包。
局长:你这是什么意思。
小王:没什么意思,意思意思。
局长:你这就不够意思了。
小王:小意思。
局长:你这人真有意思。
小王:其实也没有别的意思。
局长:那我就不好意思了。
小王:是我不好意思了。
问上文中所有‘意思’的含义?
还有一个缺陷就是无法识别人类的语音,主要出现在一些翻译机上,每种语言都有很多种口音,俗称方言,还有许多生活中的俚语。
人和人的交谈不可能全部都和央视主持人主持新闻联播那样咬字清晰,语音标准,语言要素齐全。
不过第二个问题暂时不在陈家涛的考虑范围之内。
虽然说制作出一款准确率能高达99.99%的翻译软件并且具备同声传译功能。
是利国利民的好事,至少可以将青少年学习英语的时间挪去做一些更有意义的事。
许多因为语言原因无法出国的人也可以毫无障碍的和外国人交流,地球也会真的变成地球村。
但是对于那些以此为职业的翻译,恐怕就是灾难了,一款优秀的软件足以让一个行业伤筋动骨,无数以此为生的人陷入失业的沼泽。
所以要慢慢来,陈家涛前期只想做一个可以翻译文本的软件,同声传译的难度也比较大,比较世界各地各种口音的收录就是个麻烦事,工程量太大。
陈家涛考虑的是采用数学思维,另辟蹊径,将每个词语设定为向量,并且分类为名词,动词等等。
将此与设定为向量的好处就是将长难句进行肢解,翻译选件处理时会将每个词语准确翻译。
接下来就是根据语言的语境,将所有词语的意思,按照语言环境进行筛选,剔除明显不符合语境的释义。
接着再让不同的词语,根据翻译对象所需要的语言的语法和含义进行组合,并对缺少的与语法要素进行补充。
陈家涛反复检查了几遍,软件整体的逻辑是正确,接下来就要正儿八经的开工了。
逻辑正确只是第一步,怎么让用向量的词语按照指定语言的语法进行重组为新的语句,就是个难题,这也是市场上翻译软件最大的难点。
就拿英语和汉语来举例,在语法上主谓宾的顺序就不同,翻译机器没有办法进行自我重组,所以经常闹出,饭吃了我的笑话来。
市面上的翻译软件都是采用语言学家总结的语法库,少部分软件有自我学习功能,也不能做到了解和统计当今所有的语言习惯并对其作出分析。
这项工作最大的难点就编译量非常大,毕竟要统计一种语言的所有语法习惯,这基本是不可能的。
不过没有关系,这些难不倒陈家涛,盘古语言最擅长如此。
陈家涛开始在屏幕上敲敲打打起来,他首先需要编译出一个可以自我学习的,搜集一切可用资料的数据库。
然后通过数据库搜集各地的语音和语气将其归类分析,最后形成文字数据库来给翻译提供基本理论支持。
陈家涛预留了几个接口,方便今后导入大量的中英文资料。
然后......
笔记本开始变慢,发烫。
最后它卡...卡死了。
陈家涛这大半天的功夫转眼就化为乌有。
我去...劳资...
陈家涛刚想骂人,结果看了看周围室友都在睡觉,陈家涛默默把没说出口的话咽了回去。
看了一下时间,已经凌晨四点了,在折腾一会儿天都快亮
从随机任务刷新,到搞翻译软件这个想法出来,这期间陈家涛一直保持兴奋的状态,根本没有考虑到硬件的问题。
就和阿基米德当初在澡堂想到如何判断皇冠的真假,直接光着身子跑了出去是心情一样。
陈家涛看着自己新买的华硕普通笔记本,真的是欲哭无泪啊!
当初陈家涛买笔记本的时候想着就是用来写写论文,可以到处带着走,图个方便。
平时要是干其他的事,就连陈家涛偶尔看个电影,都用的宿舍那台台式机,当初上学时陈家涛特意从家里也带了过来。
处理如此大量的数据,笔记本用的是i78550u处理器,不卡死才是怪事!
......
ps:今天第二更,抱歉有点晚了。
感谢“书迷三十年”和“蚂蚁★松少”的打赏!
魔方再求一波推荐票,谢谢大家!
(?^?^)?