当前位置: 江南文明网 > 科技 > 智能 >

Meta祭出Nougat,PDF格式转换

条评论

Meta祭出Nougat,PDF格式转换

【新智元导读】最新科研神器Nougat,可以把PDF中公示、文本提取出来。

做研究的童鞋们简直要狂喜!

近来,Meta AI研究人员推出一款OCR神器Nougat,能够分分钟把PDF转换为MultiMarkdown。

各种复杂数学公式、表格、文字、甚至是扫描版的PDF通通可以提取出来。

真有这么神?不如上图说话。

拿出一本很有年代感的书籍,每个公示都可以清晰地识别。

即便文档凹凸不平,也不碍事,公示格式照样重现。

这么神的科研利器,究竟是什么来头?

科研OCR神器,怎么来?

要知道,除了HTML之外,PDF是互联网上第二大重要的数据格式,访问量占比为2.4%。

然而,对于科研人员最不便的是,存储在这些文件中的信息很难提取为任何其他格式。

对于高度专业化的文档更是如此,例如科学研究论文中数学表达式的语义信息会丢失。

对此,Meta的研究人员基于Vision Transformer架构,为处理科学文档量身订制定制了一款光学字符识别(OCR)——Nougat。

与传统OCR不同之处在于,Nougat可以处理整个页面,并且输出格式是MultiMarkdown,适合于学术文档写作。

尤其重要的是,它在处理数学公式中的上标和下标等变得非常容易。