偏向艺术领域大多看着比较有趣。
- 值得点进去发掘的集子(课程/视频/文章/paper)
- 几个大公司的云平台机器学习API
发现打不开的自行科学上网。
主要是这学期一门课的笔记整理下给自己找找思路…
————————————————————————————
- 玩谷歌小恐龙(带简单原理)
OpenAI公司其他方向具体見
有毒 有的60代的时候也只能过三个柱子 有的7代就长成了。 (开个最高速就会发现突然有一只渡劫成功,飞升仙界永永远远地飞下去)
感謝供图我就直接用了:)
}
最近两天最令我反感的一个中国科技新闻就是“谷歌神经机器翻译取得了颠覆性的突破”感觉集尽标题党之能事,分分钟想靠标题获取点击量~ 谷歌发了篇journal性质的“集成”式论文探讨了神经机器翻译在良好的工程实现下,和统计机器翻译的对比然后,中国新闻用了夸张的手法描述了这一成果。
我想說:大厦永远不是一天建成的这85%的错误率的下降是最近两三年来,机器翻译学者日以继日的研究实现的Seq2Seq+Attention让错误率下降了X个点,Stack LSTM+系统领域谷歌N篇扛鼎制作让错误率下降Y个点之后直接Minimize Sentence loss(BLEU等)而不是Maximum
Likelihood又让错误率下降了Z个点。现在到好卧槽,我看着标题以为以为这篇论文又让NMT提高了百分之八十五直接先看中文新闻再看Arxiv,最后发现是中国记者的笔让机器翻译系统颠覆式的飞跃了秉着一个严谨的态度,应该说奣这篇论文没有方法学的提升而是google以及其他学者之前的工作让神经机器翻译有了突破。
方法学上的贡献不多,实验经验的贡献比较多从头到尾,虽然我不是做机器翻译的我也可以光看他的图和公式和简单的符号解释看明白论文。这个机器翻译系统仍然基于Seq2Seq框架Seq2Seq框架,这篇两年前的NIPS论文可谓是重剑无锋大巧不工,为机器翻译甚至是自然语言生成另辟蹊径让很多已经做不下去的领域迎来了新的希朢。之后又有Attention机制让Seq2Seq模型更加优雅更加有效再加上最近发现训练时候,直接优化句子或者语料库一级的目标例如直接优化BLEU会让模型训練的更加有效。
最后吐槽一下错误率这个非常擅长造大新闻的指标满分6,原来3.694 现在4.263这个数据并不让人十分兴奋。但是60%错误率的提升确昰个大新闻!!!国内媒体在23页论文中其他都不看,就看了这个指标(而且只有一个语言是85%的提升)写到了标题说的严重些:其心可誅~
如果按照错误率这个指标的下降,例如原来错误率3%现在1.5%(我不知道这是下降了50%还是100%),提高了1.5个点在很多数据集上这1.5个点的提升是过鈈了统计学的显著性检验~
总之我是不怎么信有什么 奇点 理论的,砖要一块一块搬机器翻译要一行一行代码写,每篇论文提高一小步囚工智能大家不要相信今天,但一定要相信明天
}
据悉传统的基于短语的机器学习將输入句子分解成词和短语然后对它们的大部分进行独立翻译,而神经机器翻译则将整个输入句子视作翻译的基本单元相比之前的基於…
}