让计算机读懂好文章?
Kaggle 是一个有趣的站点,它以数字竞赛的方式激发天才怪杰们的热情,借助他们的高智商来解决现实中有趣,抑或难以解决的问题,比如预测未来五个月内每位维基百科编辑的编辑次数,或者是预测澳大利亚未来 24 小时内的交通状况等等。
这一次,Kaggle 又发起了新的数字竞赛,这一次将挑战各位天才怪杰的极限——“自动读懂学生写的文章,并打分”。
项目的想法是为了减轻老师的负担,因为每年毕业的学生都要写大量的文章,然而老师每次都要花费大量的时间阅读并评分。这个竞赛从三个方面来考验参赛者:
- 参赛者要证明他开发的自动评分系统的优势。
- 将对比自动评分系统与学生所花费的成本和达成的效果。
- 向国家教育部门或其他关键的决策者说明这个产品运行的原理。
Kaggle 的竞赛,旨在让计算机在一定程度上读懂人类所写的文本,并给出评价。这种自动化的方式,确实能够极大的解放老师的工作压力。在以前,人们探索计算机能力时,会尝试利用 “无线猴子定理” 创造出大量虚拟猴子和虚拟打印机,来打出莎士比亚著作。在 2011 年,开发者 Jesse Anderson 就进行过类似的尝试。
计算机能够理解人类的文本吗?目前来看是不行的。
那么 Kaggle 的竞赛有实现的可能吗?有可能。因为无论测验还是批改作业, 老师都是通过一定的判断方法来进行,而参赛者所要做的就是尽量把这个规则找出来,转变为计算机能够操作的方法,实现计算机自动评分的目的。比如说一篇文章写得好不好,可以看形容词用了多少,句子是简单还是复杂,计算机能够通过统计来找出内在的一些规律,而参赛者需要考虑的,则是如何让自己的评分算法显得更加公平,以及更加接近人类的判断。
该竞赛由 William and Flora Hewlett Foundation 赞助,第一名达到目标参赛者将获得 6 万美元奖金,第二名则获得 3 万美元,第三名获得 1 万美元。目前该竞赛已经有 156 位参赛者参与,并且提交了 1123 篇文章。