ChatGPT 文件阅读助手来了!无需通读,知晓万千

在信息时代,我们常常处在一个「收集信息」 -> 「整理信息」 -> 「出结论」的循环中。

这既是我们通用的学习方法,也是常用的工作方法和生活方式:针对某个课题或任务,我们通过整理大量信息,归纳总结出重要的内容,从而得出结论、形成报告。

但「整理信息」的环节,往往并不令人愉悦,甚至会消磨掉我们的灵感:

  • 比如搬运:扫描件里的表格/文本不能复制,手动搬运费时费力;
  • 比如搜寻:散落在段落中的数据,要像摘豆子一样,一个一个摘录出来整理成表格;
  • 比如归纳:长篇累牍的文件,通读浪费时间,如果能直接拿到一个简明的摘要就好了;
  • 比如演绎:想用庞大复杂的报表推导出一个事实性描述,费尽眼力才能定位到相应数值;
  • 比如 Paraphrase:想用富于逻辑性和思辨性的语言,转达相同的含义。

此前,庖丁科技的「PDFlux 富文档解析利器」,基于计算机视觉、自然语言理解、表格语义理解技术,让禁锢在 PDF、扫描件和图片中的信息流动起来,消除了大量「数据搬运」的整理工作。

最近,ChatGPT 的问世,让我们看到了更多的可能性。它的信息重组能力令人赞叹,生成的段落近乎于人类的写作水平,能够较好地胜任「搜寻、归纳、演绎、Paraphrase」 等工作。

但 ChatGPT 目前只能读懂文字,不能读懂表格、图片、PDF、扫描件。

如果能将 PDFlux 的文档解析能力,与 ChatGPT 的语言生成能力结合起来,我们便能从纷繁文件中,更高效地洞察高价值信息,更快到达「输出结论」的终点。

于是,「ChatDOC」诞生了。

在新版 PDFlux 中,通过使用 ChatDOC 功能,你可以:

  • 智能生成表格/文段的摘要分析
  • 与 PDF 对话,直接获取信息
  • 让 AI 帮你润色/改写相关文段

有了它,你可以读得更快、写得更好,从而输出更高质量的报告或结论。

1

报表/段落,一键生成分析

在阅读 PDF 时,只需选择你需要分析的表格或段落,再点击这个神奇的魔法按钮,你便能直接得到结论性描述了。

🧙‍♀️ 选择表格,生成分析

提出有针对性的问题,能够让我们最大程度地运用 ChatGPT 的能力,同时将其潜在的事实性错误风险降到最低。

例如,你可以选中某一具体的报表数据,随后发出指令:“请帮我总结分析该表格的关键数据结论。” ChatDOC 将自动归纳总结出重点内容。

经我们反复测试,如果是针对某一具体表格进行分析,ChatDOC 给出的数据要点提炼相对来说靠谱;如果问到了表格之外的内容,还是要谨慎一些,需要人工复核下信息的真实性。

当然,ChatDOC 对表格信息的准确提炼,建立在我们能够给到 ChatGPT 准确的结构化数据的基础上。

基于 PDFlux 多年的表格识别技术积淀,我们能够有效识别各类复杂表格,准确抽取出其中的结构化数据,大幅减少数据转化中的损耗。

因此,比起其他基于 ChatGPT 的文件阅读工具,ChatDOC 能够更好地保障表格数据乃至后续分析的有效性、可信度。

🧙‍♀️ 选择段落,生成摘要

针对某段文字,你可以这样问:“总结该段落描述的事实”;

当然,给出更具体的指令,能够帮助你得到更理想的结果。比如细化描述:“以 Markdown 表格的形式列出关键信息,包括时间、法律条例、税种、税率。”

在清晰的指示下,ChatDOC 将帮你整理好表格,干净整洁,拿来即用。

 

🧙‍♀️ 跨选内容,得出初步结论

你还可以更进一步,让 ChatDOC 帮你进行简单的定性分析。如需跨选更多内容提问,只需选择「阅读批注」模式,划中对应的内容就可以了。

例如,在这份房地产企业半年报中,划选多段内容后,你可以提问:“以下净利润的表现情况,在中国房地产企业中是好还是不好,理由是什么?”

ChatDOC 可以快速提供一些分析的角度和初步结论:

需要注意的是,ChatDOC 的分析是基于 ChatGPT 的智能会话能力实现的。因此,我们提出的问题越聚焦、给到的指示越具体,结论就会越靠谱

如果我们的提问比较宽泛,就要警惕答案中可能存在的事实性错误。

并且,它对地产行业的理解可能停留在 2021 年,有一定的时差。当且仅当行业近两年变化不大时,它给出的结论可信度才更高些。

尽信ChatGPT,不如无ChatGPT」,我们应当正视技术的能力边界。ChatDOC 生成的结论性描述可以辅助我们更高效地工作,但未经审视的「拿来主义」仍是危险的。

目前,为了提高 AI 生成结论的可信度,ChatDOC 现仅支持对特定表格、文段进行总结概括。后续,在优化测试后,我们将上线「全文提问」的功能,敬请期待。

2

与 PDF 交谈,直达关键信息

除了总结、概括等定性分析,我们在阅读文档时的另一个常见场景是,在上百页的文档中,希望能够快速定位到我们想要的信息。

定位信息后,希望能够快速提取数据点、完成计算、得出结论,一气呵成。

以上,PDFlux 和 ChatDOC 都可以效劳,为你的工作与思考提供一些加速度

  • 面对一篇超长文档:PDFlux 可以自动为你生成细颗粒度目录,一键直达关键信息
  • 定位关键信息后:ChatDOC 可以帮你完成计算,并得出初步结论

🧙‍♀️ 生成目录,直达重点

比如,在一份上百页的 ESG 报告中,你想要知道该公司在产品和服务质量、处理客户投诉、产品召回及客户信息保护方面,做得是否合乎要求。

原文档提供的目录很粗糙,给信息筛选带来了较高的成本。

PDFlux 为你智能生成的细颗粒度目录,除了一级标题,还有二、三、四级标题。

你很快就能找到对应章节的内容:「Environmental, Social and Governance Report -> Operating Our Business Responsibility -> Striving for Service Excellence」

定位内容后,再向 ChatDOC 提问,就能快速拿到问题的答案了。

如果你用中文提问,它还会贴心地将原文中的英文翻译成你的提问语言。

🧙‍♀️ 合并表格,计算数值

对于报表内容,除了提取关键数据,你还可以让 ChatDOC 基于表格中的数据,帮你计算其他的财务指标。

即使表格庞大繁杂、连跨数页,也没关系,PDFlux 可以自动将其合并处理,随后你可以对整体表格数据进行提问:“请计算 revenue to gross profit ratio,并由此分析公司的生产经营情况。”

ChatDOC 将会列出计算过程、选用的数据,以及相应的结论。

3

快速进行改写

在写作文献综述、课题报告的时候,遇到有价值的信息,想把它整合进自己的论述中,往往需要改写、润色原本的文段。现在 ChatDOC 也能帮你完成这项工作了。

你可以针对文字风格、用词提出明确的要求,比如:“帮我改写下面的文本,要求意思保持不变,文本内容要有比较大的变化,尽量用原文本中没有出现的词。”

原文中的这段话,就会摇身一变,成为另一段意思相同、表述不同的文字。

 

4

结语

这是一个不缺乏数据与信息的时代,你几乎可以从浩瀚网络上找到任何信息。而我们的困境在于,信息量过大,信噪比过高,高价值信息的浓度被冲淡了。

我们相信,一本专业书籍胜过十篇论坛软文,一篇高质量的 Review 胜过十本专业书籍,一段简明扼要的结构化结论胜过十篇高质量 Review。

繁琐的信息收集和处理,交给 AI 来完成;我们可以乘坐技术的高速列车,直接抵达简明扼要的结构化结论。

希望 ChatDOC 可以帮助你精准、快速获取 PDF 中的高价值信息,我们只需不断练习「定义问题」「学会提问」「去伪存真」的核心能力,从而更好地与 AI 互动、合作。

正如 Midjourney 创始人 Holz 所说:

AI 如水,虽然有危险,但却是文明的驱动力。知道如何与水相处,才能生活得更好。

原文:https://mp.weixin.qq.com/s/M-0ueeFyIIUk5psqJX3Sow

- Posted in: AI

- Tags: , ,

0 条评论 ,4,840 次阅读

发表评论

  1. 既然来了,说些什么?

Top