哈工大信息检索研究室论坛's Archiver

wlmqgzm 发表于 2007-10-10 03:25

IT民工开发MT 急需资料

IT民工开发MT。
2007年春节后辞职在家休息,考虑再三,决定利用自己休息的时间,做点东西。
感觉MT机器翻译产品 似乎是一个创业的方向, 请大家提一下建议。

我的产品已经开始做了, 已经陆续断续做了几个月,首先是做一个搜索引擎,已经完成。目前已经给我down下来了30G的资料,1个月分析下来,已经分析完成了大约27万单词库,不包括短语,已经能够实现比较准确的汉字/英语单词的对应关系。
大家认为27万英语单词库,是什么样的规模?
短语 还在分析中, 估计大约有100万的短语吧, 计算机速度太慢, 过几天升级计算机。

思路是:
1)建立单词库, 短语库  数据库MYSQL
2)核心的算法,实现全文翻译。依据是:先短语匹配,再单词匹配, 最后合成输出。

按照设计进度,本月底 数据库WEB网络可以上线, 先实现单词库的查询。下个月实现短语库的查询, 12月实现全文查询翻译。现在在后台做了一下自己的东西测试, 感觉与google也差不多啊,呵呵。错得不太离谱。。

等本月底系统测试版本上线后, 再请大家提意见,呵呵。

第1次开发这样的系统, 如果大家有关于  全文翻译的技术 资料,请一定给我发一下,我现在急需,谢谢!!!
Email: [email=wlmqgzm@sohu.com]wlmqgzm@sohu.com[/email]

[[i] 本帖最后由 wlmqgzm 于 2007-10-10 03:26 编辑 [/i]]

caohao 发表于 2007-10-15 18:58

这种方法太原始了吧

现在都用统计机器翻译的方法。可以去找两篇论文看看。

vegy 发表于 2007-12-4 16:41

感觉还可以,就是方法比较原始,完全没有考虑语法之类的东西啊!
建议做辅助翻译引擎!

victor 发表于 2008-1-21 15:25

楼主有在线的演示么?

zhanhua 发表于 2008-4-24 11:14

呕液! :victory: :lol

nihao1239 发表于 2008-10-25 02:58

看帖不顶不厚道~~我顶~~~~

[align=center][img]http://www.fjserver.com/admin/ding5.gif[/img][/align]
[size=7]看帖不顶不厚道~~我顶~~~~[/size]
[img]http://www.fjserver.com/admin/sigline.gif[/img]
[url=http://www.lianliankan123.cn/]连连看[/url][url=http://www.kingsoft-ciba.cn/]金山词霸[/url][url=http://www.kof97.net.cn/]拳皇[/url][url=http://office-download.org]office2003[/url][url=http://www.zu-ma.cn/]祖玛[/url]

页: [1]

Powered by Discuz! Archiver 6.1.0  © 2001-2007 Comsenz Inc.