进军新领域,深度搜索及Deepseek文本识别模型发布
新京报贝壳财经讯(记者罗一丹)北京时间10月20日,Deepseek在开源社区的怀抱中发布了新模型Deepseek-OCh。据了解,OCR(光学字符识别)模型是一种用于从图像中提取文本的技术。 Deepseek也上传了与该模型相关的论文,其中Deepseek-OC被描述为“通过光学二维映射压缩长上下文的可行性的初步研究”。实验表明,当文本标记数量在视觉标记数量的10倍以内(即压缩比<10倍)时,该模型可以实现97%的解码(OCR)准确率。即使压缩比达到20倍,OCR准确率仍能保持在60%左右。它在大型语言模型中的长上下文压缩和记忆遗忘等研究领域显示出巨大的潜力。编辑 岳彩洲 校对 刘宝庆
