
在人工智能技术加速渗透科研全链条的今天,科学数据已成为驱动创新的战略性资源。2025年6月23日,我国首本英文数据期刊Data Express(简称DE,中文译名《数据快报(英文)》)正式创刊,标志着中国在科学数据出版领域迈出了从“跟随”到“引领”的关键一步。这不仅是学术出版界的里程碑,更是人工智能时代科研基础设施建设的标志性事件。本文将深入解析这本期刊的诞生背景、战略意义及其对全球科研生态的影响。
数据期刊:人工智能时代的科研新基建
当我们谈论人工智能时,往往聚焦于算法、算力和模型架构,却容易忽略最基础的燃料——高质量数据。事实上,人工智能模型的性能天花板,很大程度上取决于训练数据的规模、质量和多样性。而科学数据作为人类知识体系中最严谨、最结构化的一类数据,其开放共享程度直接影响着前沿科研成果的转化效率。
数据期刊正是解决这一痛点的关键载体。不同于传统学术期刊发表的是“论文”,数据期刊专门发表“数据论文”——即对数据集本身进行描述、验证和标准化,使得数据可以被发现、引用、复用和再分析。这种新型出版形态在大数据时代具有双重价值:一方面,它为科研人员提供了合规的数据共享渠道,激励数据生产者开放优质数据;另一方面,它构建了数据质量审核与认证机制,确保进入公共领域的数据可信可靠。
随着大模型训练对数据需求的指数级增长,数据期刊的作用愈发凸显。以生态领域为例,全球气候变化研究需要海量的遥感数据、地面观测数据和模拟数据,但这些数据往往分散在不同机构、格式各异、缺乏标准化的描述信息。Data Express的诞生,正是要搭建一个统一的、国际化的数据出版平台,让“沉睡”的数据转化为人工智能可用的“活水”。
值得关注的是,这一举措与我国近年来大力推行的企业数字化转型政策形成了呼应——科学数据的治理与开放,本质上是科研领域的“数字化基建”。而最新科技的突破,例如多模态大模型、数字孪生等,都离不开底层数据的支撑。Data Express作为综合旗舰刊,将成为连接数据生产者与人工智能研发者的桥梁。

从《中国科学数据》到Data Express:十年数据出版的跨越
中国在数据期刊领域的探索并非始于今日。2015年,中国科学院创办了我国首本中文数据期刊《中国科学数据》,十年间累计出版了数千篇数据论文,覆盖地球科学、生命科学、物理化学等多个学科。然而,随着全球化科研协作的深入以及人工智能对英文数据资源的迫切需求,中文数据期刊的局限性逐渐显现:国际科研共同体普遍使用英文交流,中文数据集很难被海外AI模型直接使用。
Data Express的创刊,正是为了解决这一“语言鸿沟”。作为英文数据期刊,它采用国际通用的元数据标准和数据引用规范,所有数据论文均以英文撰写,并附带DOI(数字对象标识符),确保全球研究者能够无障碍检索、引用和使用。主编于贵瑞院士在接受采访时强调:“科学数据没有国界,但数据标准的制定权和话语权需要我们去争夺。”
从《中国科学数据》到Data Express,十年间经历了从“内循环”到“外循环”的跃升。早期的中文数据期刊主要服务于国内科研考核和数据汇交需求,而英文数据期刊则直接对标国际顶级数据期刊(如Scientific Data、Earth System Science Data等),旨在提升中国科学数据的国际可见度和影响力。
这种跨越还体现在技术平台的升级上。Data Express采用最新的数字学术基础设施,支持数据版本控制、动态链接和交互式可视化。科研人员不仅能够下载原始数据,还能通过内置的在线分析工具直接对数据进行初步探索。这为科技产品的快速原型验证提供了便利——例如,一位AI开发者可以快速获取某生态数据集,并利用AI画图工具生成可视化报告,加速产品迭代。
主编于贵瑞院士:生态数据与人工智能的交汇点
Data Express的首任主编由中国科学院院士、地理科学与资源研究所研究员于贵瑞担任。于贵瑞是我国生态领域战略科学家,长期从事生态系统碳氮循环、全球变化与陆地生态系统研究。他的学术背景与数据期刊的定位高度契合——生态领域正是数据密集型科学的典型代表,也是人工智能应用最为活跃的前沿之一。
在于贵瑞看来,人工智能与生态科学的结合正在创造一种全新的科研范式。传统生态研究依赖野外样地观测和室内控制实验,数据获取成本高、周期长。而借助人工智能技术,研究人员可以从海量的卫星遥感数据、传感器网络数据中自动提取生态参数,构建高精度的生态系统模型。例如,利用深度学习识别植物物候、预测森林碳汇动态等,这些都需要标准化的、可互操作的数据集作为基础。
Data Express的创刊,正是为了加速这一进程。于贵瑞院士领导的研究团队此前已积累了丰富的生态数据集,包括中国生态系统研究网络(CERN)的长期观测数据。这些数据将通过Data Express面向全球开放,不仅能够支撑国内生态研究,还能为国际AI团队提供高质量的训练数据。他特别指出:“数据期刊不是简单的存储仓库,而是知识的策展平台。我们要让每一份数据都具备‘可发现、可访问、可互操作、可复用’(FAIR)特性。”
这种理念与当前人工智能领域的FAIR数据原则高度吻合。事实上,许多大型AI模型(如气候大模型、蛋白质结构预测模型)的构建都依赖于高质量的FAIR数据集。Data Express的出现,有望填补我国在生态与AI交叉领域的数据出版空白。
集群化布局:“1+N”模式如何填补数据出版空白
Data Express并非孤立存在。根据中国科学院的规划,2026年将在数理、生态环境、海洋大气、工程技术、生命健康、现代农业等多个领域,陆续启动建设系列领域数据期刊,形成“1种综合旗舰刊 + N种领域专业刊”的数据期刊集群。
这一战略布局极具远见。综合旗舰刊Data Express专注于跨学科、高影响力的数据集,而领域专业刊则深耕特定学科的垂直数据需求。例如,海洋大气领域的专业刊可以专门处理海洋观测数据、气象再分析数据,这种数据通常体积庞大且格式特殊,需要定制化的同行评议标准和数据验证流程。
“1+N”模式的核心优势在于协同效应。综合刊为领域刊提供品牌背书和技术标准,领域刊则反哺综合刊,形成覆盖广泛的数据出版网络。这种集群化发展在国内外尚无先例,堪称中国在最新科技出版领域的创新尝试。
对于人工智能产业而言,这意味着源源不断的、高质量的专业数据供给。例如,在生命健康领域,领域专业刊可以发布基因组数据、医学影像数据和临床试验数据,这些数据对于训练医疗AI模型至关重要。而工程技术领域的专业刊,则可发布工业传感器数据、材料性能数据等,推动智能制造和工业AI的发展。
值得注意的是,中国科学院计划将这一集群与现有的科学数据基础设施(如国家科学数据中心、地球大数据科学工程等)打通,实现数据存储、出版、分析的一站式服务。这将大大降低科研人员的数据管理负担,提升数据流通效率。
科学数据开放共享:人工智能训练的关键燃料
“没有数据,人工智能就是空中楼阁。”这句话在业内已成为共识。但现实情况是,大量有价值的数据仍然被锁定在实验室、数据库或商业公司内部,成为“数据孤岛”。数据期刊的出现,正是为了打破这些孤岛。
Data Express及其后续期刊集群,将通过开放的同行评议机制和标准的许可协议(如CC BY 4.0),确保数据可以自由下载和重用。这意味着,任何研究机构或企业,包括训练人工智能模型的科技公司,都可以合法地使用这些数据进行研发。这对于解决AI训练中的“数据荒”问题具有重要意义。
以多模态大模型为例,当前主流模型需要图像、文本、音频、视频等多种模态的数据。而科学数据如卫星影像、显微镜图像、地质剖面图等,恰好能提供独特的视觉信息,帮助模型学习更丰富的特征表示。文生图领域的最新进展表明,在科学数据加持下,模型能够生成更精准、更符合物理规律的图像。
此外,数据期刊的引用机制还能为数据生产者带来学术激励。传统上,数据贡献者的付出往往被忽视,而数据论文的发表可以作为正式的科研成果,用于职称评定和项目结题。这极大地调动了研究人员开放数据的积极性。
从更宏观的视角看,中国科学数据开放共享的加速,将深刻影响全球人工智能竞争格局。谁掌握了更多高质量数据,谁就能训练出更强大的AI模型。Data Express的创刊,正是中国在这一领域布局的关键棋子。
全球视野:中国数据期刊如何提升国际话语权
在国际科学数据出版领域,欧美国家起步较早,如Springer Nature旗下的Scientific Data期刊已有十年历史。中国一直处于“数据使用国”而非“数据提供国”的地位。Data Express的推出,旨在扭转这一局面。
要提升国际话语权,关键在于制定标准。Data Express采用了国际公认的数据引用标准(如DataCite),并积极参与国际数据出版联盟的规则制定。主编团队由多位国际知名科学家组成编委会,确保期刊的审稿流程与国际接轨。
同时,中国科学院利用自身的国际合作网络,与海外科研机构共建数据共享协议。例如,在“一带一路”沿线国家,中日、中欧等双边合作项目中,Data Express有望成为数据交换的官方渠道。这种“数据外交”不仅提升了中国科技影响力,也为全球科研协作提供了便利。
从产业角度看,中国数据期刊的崛起将催生新的科技产品生态。数据管理、数据标注、数据可视化等第三方服务将迎来爆发。AI工具导航类平台可以整合Data Express的数据资源,为开发者提供便捷的数据检索接口。
在未来,Data Express集群将不仅仅是一个出版平台,更可能演变为科学数据的“交易所”——数据生产者、消费者和审核者在这里形成完整闭环。而这正是人工智能时代新型科研基础设施的典型特征。
结语
Data Express的创刊,是中国科研数据治理体系中一块重要的拼图。它既是对过去十年中文数据期刊经验的继承,也是面向人工智能时代全球化竞争的主动出击。当科学数据不再沉睡,当人工智能拥有更充沛的燃料,我们有望见证更多颠覆性创新的诞生。
当然,数据期刊的长期成功还取决于社区参与度、质量控制力度以及商业可持续性。但无论如何,第一步已经迈出。对于科研工作者和科技从业者而言,Data Express意味着一个更开放的、更智能的科研未来正在加速到来。