QA问句分类的训练问题
QA问句分类如果用svm来训练,那是不是总的维数很高,而各个问句的向量是很稀疏的?以前没有做过,周围也没人做过,所以一切都很迷糊的状态中,我写成libsvm格式后,为什么训练半天都没结果,是不是这么高维数而各行又这么稀疏不对呀?
有没有做QA的同行,帮我解答一下好吗?
QA问句分类的训练问题
说具体点你的index 和 value是怎么定义的
QA问句分类的训练问题
终于有人回复我的问题了,谢谢!我写出的libsvm格式如下:
1 2:1.000000 3:1.000000 4:1.000000 5:1.000000 6:1.000000 7:1.000000
2 25:1.000000 646:1.000000 686:1.000000 821:1.000000 823:1.000000
3 36:1.000000 1477:1.000000 1589:1.000000 1858:1.000000 1954:1.000000
总共分成八类,上面是其中三类的一些格式,所有问句的词构成一个总的空间,如果本问句有某个词,那么这个词对应的Index为1,是不是我理解的不对??谢谢
QA问句分类的训练问题
SVM的缺点就是训练速度很慢,所以如果训练语料过大,慢是很正常的。数据稀疏是因为语料很小,而特征很多,分的类别也多,你是不是这种情况?另外,用SVM分类,index是类别号,而value是权重,value可以不为1的,可以是经过许多算法计算出来的值,如TF×IDEQA问句分类的训练问题
[quote][b]下面引用由[u]mysky[/u]在 [i]2006/06/12 09:27am[/i] 发表的内容:[/b]终于有人回复我的问题了,谢谢!
我写出的libsvm格式如下:
1 21.000000 41.000000 61.000000
2 251.000000 6861.000000 8231.000000 14771.000000 18581.000000
...
[/quote]
理解稍有偏颇,如果含有这个词,那么value应该是1(按照你的规定)
QA问句分类的训练问题
谢谢你的回答!我用easy.py来找最佳参数的时候,是很慢,如果训练数据过大的时候,在corss validation的时候就没什么反映了,总出现虚拟内存不足的情况。
如果直接用svmtrain.exe来训练,则准确率就特别低。
可不可以和你直接交流一下,我的QQ:43420522 邮箱:liuyanfang@besti.edu.cn
谢谢!!
QA问句分类的训练问题
方法没错index改为1而不是1.00000试试
可以直接train 应给很快的 自己多环一些核函数,多试一些参数 应该可以的
QA问句分类的训练问题
我在用svmtrain的时候也尝试过自己设定C,g的参数,但纯粹是猜的状态,不知道应该选在什么范围比较合适。在选择参数和核函数的时候有没有什么可依据的??谢谢!
QA问句分类的训练问题
训练的时候用 -v 这样可以看他自己训练后的成功率QA问句分类的训练问题
呵呵,同行啊如果只分8类的话应该会有不错的结果
关于参数选择、训练和测试的方法可以参考机器学习版的介绍。
另外,如果你用的权值如果是bool值,就写成1就好了,不用写成1.00000...
参数选择的时间是很慢的,而且特征空间的纬度越高越慢,如果不用内存较高的服务器来跑会出现类似segmentation error的错误,甚至直接被kill掉
耐心等吧,跑个半天一天的是常事,呵呵
QA问句分类的训练问题
谢谢各位大侠的答复!To: kimi
我就是用的bool变量,但不知道为什么写出来后就是1.00000,我们实验室的服务器上已经跑了快两天了,还是在corss validation后就没反映了。
用svmtrain自己选择参数c和g,只能达到85%的准确率,可看各种论文上说分类这么少,准确率应该很高的才多,所以觉得是不是参数选择的不太好。
机器学习版上也没看到参数选择的方法,可能看的不太详细,我再去看看。
我总觉得自己是不是做错了,在走很大的弯路,如果大家有什么建议什么的,希望不吝赐教。谢谢各位!
QA问句分类的训练问题
[这个贴子最后由kimi在 2006/06/20 03:31pm 第 1 次编辑]bool权值不用scale parameters
进行parameter selection时,如果你的训练文件叫mysky.train
如果是linux系统,到python的路径,直接在命令行输入 ./grid.py mysky.train就好了
在libsvm/python的文件夹里有说明文档,你仔细看看
如果出现cross validation是正常的反应,你可以试试把特征空间的维度减到很小,看看反应,如果有结果应该就是因为 特征空间过大+机器配置不够 的原因了
不过依经验来说参数选择的确是很慢的,祝你好运!
问句分类
大家好 我也非常需要问句分类这个功能再我的问题回答系统里,但是如何用,你们说的我总是看不懂啊,问句分类我知道,可是机器学习的算法具体怎么实现给个例子可以吗?谢谢你们了 我急需啊!谢谢大家了页:
[1]