文 | 中国信息通信研究院副院长 魏亮当前,数据作为新型生产要素,已快速融入社会生产经营和服务管理各环节,成为推动经济增长的重要动力。为保障数据要素安全高效流通利用,亟需构建国家数据基础设施,支持数据要素市场建设,促进数字经济高质量发展。2024年12月,国家数据局会同国家发展改革委、工业和信息化部印发《国家数据基础设施建设指引》(以下简称《指引》),指导推进数据基础设施建设,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局。01 把握建设国家数据基础设施的重要意义国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。建设国家数据基础设施,对于支撑数据基础制度落地、构建全国一体化数据市场、培育发展新质生产力具有重要意义。(一)建设国家数据基础设施是支撑数据基础制度落地的具体承载“数据二十条”确立了我国数据基础制度的“四梁八柱”,明确要建立数据产权、流通交易、收益分配、安全治理等基础制度。党的二十届三中全会进一步提出,加快建立数据产权归属认定、市场交易、权益分配、利益保护制度。建设和运营低成本、高效率、可信赖的国家数据基础设施,有利于为数据基础制度落地提供坚实的技术和设施支撑。(二)建设国家数据基础设施是构建全国统一数据市场的迫切需要当前,我国数据要素市场尚处于发展阶段,数据流通交易的规模和效率均有待提升。建设全国统一数据市场,构建数据流通交易体系,离不开国家数据基础设施的建设。国家数据基础设施面向社会有效连接各类市场主体,降低数据流通和交易成本,能够促进形成统一的数据要素市场体系,更加高效地提升数据要素市场化配置效率。(三)建设国家数据基础设施是促进新质生产力创新发展的战略选择数据要素正以其显著的乘数效应和创新引擎作用,在催生新质劳动资料、孕育新质劳动对象、培育新质劳动力等方面发挥重要作用。建设国家数据基础设施,有利于进一步支撑地区、行业、企业大规模数据流通与开发利用,激活全社会创新活力,把海量数据优势和丰富场景优势转化为数据创新优势和国家竞争优势,推动网络强国、数字中国建设。(四)建设国家数据基础设施是提升数据安全治理能力的重要抓手建设国家数据基础设施,有助于保障数据全生命周期安全,实现数据流通、交易、利用、分配全过程治理,便于掌握数据分布、流向、应用等相关态势情况。建设国家数据基础设施将同步构建起制度规范、技术防护、运行管理的数据安全保障体系,有效提升数据安全治理能力。02 国家数据基础设施全方位支撑数据要素价值释放《指引》聚焦数据要素价值释放这一关键问题,统筹布局、协同推进区域、行业、企业等各类数据基础设施建设,推动构建协同联动、规模流通、高效利用、规范可信的数据流通利用体系,形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局。其中,《指引》围绕数据流通利用提出五个重点方向,包括数据流通利用“一个底座”和“四个体系”,协同促进数据供得出、流得动、用得好。(一)国家数据基础设施支撑数据供得出一是夯实高质量数据集供给基础。通过先行先试、标准编制、规则制定等措施,推动数据标注产业发展,为人工智能发展提供高质量数据集。二是拓宽高质量数据集供给渠道。因类施策、多措并举推动公共数据、主动公开的企业数据、个人数据、行业领域高质量数据集等各类数据资源高效供给。(二)国家数据基础设施支撑数据流得动一是打造数据流通共性底座。在技术方面,按照统一目录标识、统一身份登记、统一接口要求建设数据流通利用设施底座,实现各类平台互联互通、互操作,促进数据资源泛在接入。在机制方面,通过建设全国一体化的分布式数据目录、分布式数字身份体系以及数据资产凭证、交易凭证结构、生成与验证机制,为数据资源供需交易奠定互联互通基础。二是推动数据流通利用方案提炼。数据流通利用设施包含可信数据空间、数场、数据元件、数联网等技术设施,以及区块链网络、隐私保护计算平台等新技术设施。通过推动地区、行业先行先试,为探索国家数据基础设施建设最优解积累经验。三是构建数据可信流通公共服务。通过建设数据产权归属认定、市场交易、权益分配、利益保护、安全监管等公共服务平台,面向社会提供标准化、规范化、集约化的数据流通服务。(三)国家数据基础设施支撑数据用得好一是推动行业数据应用体系建设。通过建设数据应用基础设施,加强场景牵引,建设面向重点行业领域的数据应用体系,激发龙头企业链主作用,由链到网带动行业数据应用提质创新。二是推动赋能数据应用。通过建立国家数据基础设施运营体制机制,实现数据流通环境进一步优化、数据使用成本进一步降低、数据服务质量进一步提升,推动传统要素快捷流动、创新主体深度融合,为数字经济高质量发展注入新的动力。03 国家数据基础设施建设和运营需要多措并举《指引》已明确了国家数据基础设施的宏观建设方向,下一步,还需要各级政府、各类企业和社会力量的共同参与,多方协同、多措并举、齐头并进。一是加强技术攻关,筑牢技术基础。推动科研院所、技术企业等机构,加强攻关采集、汇聚、传输、加工、流通、利用、运营、安全服务等数据全生命周期的关键技术,例如隐私保护计算、区块链、使用控制等。推动先行先试地区,在数场、数联网、可信数据空间、数据元件等数据流通利用方案建设中,加强攻关创新,研究自主可控、安全可靠、解决问题的技术方案。二是推动标准引领,形成广泛共识。一方面,加快制定关键技术标准,包含数据基础设施功能要求、技术架构等。加快开展基础共性标准的研究制定,包含数据资源接入、主体准入、身份登记、存证溯源、互联互通等共性需求。另一方面,指导相关地区、企业等主体在建设时及时贯标,引导规范发展。三是激发社会力量,汇集多方协作。积极发挥行业协会、联盟组织、专业智库等作用,引导产学研用各方加强对接交流。开展面向相关技术方案的标准化测试验证和面向相关服务方的能力评估,壮大数据基础设施服务商力量。谋划构建国家数据基础设施产业生态组织,推动各方力量构建创新协作机制,加速共识并形成合力,打造可持续发展生态。四是丰富应用场景,赋能行业区域。坚持以应用场景为牵引,聚焦重点领域、重点场景的数据流通利用需求,率先推动先行先试。挖掘和打造一批具有代表性、示范性的数据基础设施架构方案、建设路径和典型实践,加快形成可复制、可推广的实践经验,赋能数据流通利用和价值释放。
2025-01-28文 | 工业和信息化部电子第五研究所副所长 王蕴辉习近平总书记指出,数字技术、数字经济是世界科技革命与产业变革的先机。随着大数据、人工智能、区块链、隐私计算等新技术快速发展,数据资源几何倍增,数据标注作为支撑人工智能和大数据创新发展的基础产业,在促进数据资源开发、流通和利用上的重要性愈发凸显,是我国数字经济发展的战略领域。近期,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发《促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),系统布局我国数据标注产业发展方向,以需求牵引与创新驱动双向发力,加快完善产业生态,推动数据标注产业全链条创新升级,为数据标注产业高质量发展指明前进方向。01 双轮驱动,激发数据标注产业科技创新发展动能(一)技术创新是提升产业核心竞争力的关键路径数据标注技术的突破和创新对提升行业核心竞争力至关重要。《实施意见》指出,要重点推进多模态标注、大模型预标注、自动化标注等关键技术攻关,推动智能化工具研发。持续推动各类创新资源向数据标注关键核心领域聚集,推动龙头企业与高等院校、科研院所围绕关键核心技术开展协同攻关,构建跨行业、跨领域数据标注创新平台,加快标注技术在自动驾驶、医疗健康等行业应用推广,持续提高数据标注效率,实现浅层标注向深层次标注跃升,为人工智能与数字经济高质量发展奠定坚实基础。(二)标准体系建设是产业可持续发展的必要保障《实施意见》提出,要建立全面数据标注标准体系,覆盖从数据采集、清洗、标注到数据质量评估全流程。构建统一的技术标准和质量规范将减少数据和技术壁垒,是产业链上下游数字协同,提升数据应用效率的必要前提。应发挥全国数据标准化技术委员会作用,加强标准统筹,在医疗、金融、交通等领域先行先试,结合行业应用需求,探索建立具有行业特色的数据标注技术标准,为全国范围内标准体系完善和推广提供宝贵经验。02 应用牵引,把握数据标注产业发展先机(一)我国数据标注产业发展态势良好在市场和政府协同作用下,我国数据标注产业已进入快速发展阶段,产业链条不断完善,技术创新成果逐步转向市场应用。成都、沈阳、合肥、长沙等国内承担数据标注基地建设任务的城市,凭借本地丰富的数据资源和高能级的科研平台,在大模型标注、自动化标注等领域取得重要进展。辽宁沈阳、江苏宿迁等一批数据标注产业园区相继启动建设,新型技术产业化加速落地,为我国数据标注产业高质量发展提供可复制的实践案例。(二)产业发展仍面临技术瓶颈与市场挑战尽管我国数据标注产业取得了一定成效,但仍面临诸多挑战。一是缺乏多场景数据标注技术。现有标注工具和平台多为单一场景设计,适应性和扩展性不足,难以满足日益复杂的多场景融合应用需求;二是市场主体竞争力偏弱。尤其是在中小企业技术研发、市场渗透等方面,仍缺乏足够创新能力与竞争优势;三是大规模工程化能力薄弱。国内企业尚不具备大规模数据标注,尤其是全球项目的工程化管理能力,仍需加强产业链上下游协同,加快跨境项目探索实践,推动多方共建数据标注生态系统。03 政策引导,加快数据标注产业创新发展(一)推动技术应用创新,打造产业示范样板《实施意见》明确提出,通过技术应用实践,打造可复制、可推广的示范样板。要通过多行业、多领域的数据标注应用,加快技术成果转化,推动数据标注技术应用落地,解决实际问题。依托公共数据平台,推动智能交通、智慧医疗、普惠金融、音视频文创、遥感测绘等多个行业领域数据标注应用,构建多样化数据标注场景应用,加速行业高质量数据集建设,提升大模型研发能力。(二)突破关键技术瓶颈,构建公共服务支撑体系推动数据标注产业高质量发展,必须突破技术瓶颈制约因素。《实施意见》强调,要加强共性技术攻关,完善标准体系。要推动政府与企业共同建设数据标注公共服务平台,构建跨模态标注、技术服务共享生态系统,提升整体技术能力和服务能力,推动标注技术向应用领域关键核心数据的深度渗透。加快建设智能数据标注生成管理平台、数据标注技术公共服务平台等,构建支持技术创新与产业应用公共服务支撑体系,为行业创新提供有力支撑。(三)推动多方协同发展,营造产业生态新格局《实施意见》指出,数据标注产业的发展需要全链条、多方主体的协同创新。应通过推动政府、行业龙头企业、科研机构和中小企业融通发展,积极构建以技术研发为核心、数据标注应用为驱动的数据标注产业生态,推动数据标注技术从研发到应用的全链条融合。通过优化政策环境、加大资金投入和技术支持,为数据标注产业快速发展提供有力保障。(四)深化国际组织合作,提升数据标注全球影响力随着数据标注产业技术的快速发展,国际化合作成为推动产业全球竞争力提升的必要途径。《实施意见》提出,要加强国际化合作,推动我国数据标注业务全球化布局。积极与国际技术、标准对接与合作,依托“一带一路”倡议,与国际组织和企业开展深入合作,提升我国数据标注产业全球影响力。《实施意见》是我国推动产业转型升级的冲锋号。随着技术创新与应用场景扩展,数据标注产业将进一步发挥在人工智能、大数据等领域的基础性作用,为数字经济高质量发展提供坚实数据支撑和技术保障。
2025-01-24文 | 中国信息通信研究院副院长 魏亮习近平总书记指出,数据是新的生产要素,是基础性资源和战略性资源,也是重要生产力。党的十九届四中全会首次提出将数据作为生产要素。新一代高水平数据标注在推动数据资源汇聚、提升数据质量、激活数据要素价值方面发挥着日益重要的作用,是支撑人工智能技术演进和应用落地的重要抓手。2024年12月,国家发展改革委、国家数据局、财政部、人力资源社会保障部联合印发《关于促进数据标注产业高质量发展的实施意见》(以下简称《实施意见》),对数据标注产业高质量发展具有重要的意义。我们要紧紧抓住数据标注这个小切口,以服务国家战略大视野,着力推动产业高质量发展。01 准确理解数据标注产业的内涵和重要性数据标注是连接数据资源、算法模型与实际应用场景的关键桥梁,是挖掘数据要素价值的关键环节,是人工智能高质量数据集的核心生产力。(一)从服务国家战略的政治高度定义数据标注产业狭义来讲,数据标注是指对未经处理的原始数据添加说明、解释、分类或编码的过程,以便数据可以被人工智能算法所理解和使用。《实施意见》从服务国家战略的角度提出,数据标注产业是指对数据进行筛选、清洗、分类、注释、标记和质量检验等加工处理的新兴产业。通过数据治理各环节协同发展,数据标注产业带动数据要素产业的持续健康发展,并奠定人工智能产业发展的坚实基础。(二)深刻认识发展数据标注产业的重要意义数据标注是人工智能发展的核心基石之一,贯穿于算法训练、模型评估、迭代优化以及场景应用等多个环节,发展数据标注产业具有以下三个方面重要意义:一是有利于充分释放数据要素价值。原始数据从“信息”转化为“资产”是数据要素价值实现的前提条件,经过标注处理的数据,具有更高的商业价值和应用潜力,能够被有效交易和流通。二是有利于支撑人工智能能力水平提升。数据标注过程为模型学习的数据打上人类知识标签,然后让计算机不断地学习这些数据的特征,最终实现计算机能够自主识别,建立对现实世界环境和条件的理解。三是有利于人工智能赋能行业应用。数据标注为自动驾驶、智能家居、精准医疗等现代智能化应用提供精准、可操作的数据输入,使得人工智能能够更好地理解和处理复杂场景和任务。02 充分发挥数据标注基地的示范引领作用国家数据局统筹开展数据标注基地建设,2024年5月24日发布承担数据标注基地建设任务的城市名单,指导承担单位重点围绕技术创新、行业赋能、生态培育、标准应用、人才培养、数据安全等六大任务开展相关试点工作。(一)明确数据标注基地建设任务要求数据标注基地建设既是对国家重点工作要求的承接,也是服务和支撑地方经济发展大局的关键路径。《实施意见》提出,鼓励和支持数据标注基地先行先试,打造一批科技水平高、资源集聚强、辐射带动广的典型样板。具体来说,就是鼓励承担试点任务的城市主动开展先行先试,真正把数据标注产业打造成为区域经济高质量发展的新引擎,形成对人工智能高水平自强自立发展的有效支撑。(二)着力围绕六大任务形成标杆示范数据标注任务发布以来,各地方主动开展实践探索。在技术创新方面,推动数据标注化“人工”为“智能”,研发自动化和半自动化的标注工具,搭建一体化服务平台,大幅提升数据标注效率及准确性、安全性。在行业赋能方面,通过数据标注带动行业高质量数据集建设,赋能传统产业向数字化、智能化转型。在生态培育方面,加快数据标注龙头企业引育,构建数据标注产业链、价值链和生态系统,带动数字经济产业发展。在标准应用方面,围绕数据标注技术和行业需求,引导企业积极参与标准编制和相关标准在标注过程中的应用。在人才培养方面,通过设立实训基地、举办职业技能大赛等多种形式,推动产教融合发展,培育高端标注人才队伍,形成对就业的带动效应。在数据安全方面,建立数据分类分级安全保护制度,构建数据安全风险防控体系,推动常态化、规范化的数据安全运营。(三)做好经验总结与复制推广《实施意见》提出,开展数据标注领域的创新论坛、场景案例征集、学术交流等活动,遴选数据标注优秀案例。鼓励举办数据标注创新大赛等赛事,强化数据标注创新成果推广与场景拓展。具体来说,一是要举办创新论坛和学术交流,邀请数据标注基地、人工智能企业、数据标注企业等共同探讨行业发展,分享先进的技术方法和实战经验,促进知识共享和资源互补。二是要开展数据标注场景案例征集和场景拓展,遴选不同行业和领域的应用实践,推广行业高质量数据集开发利用的典型经验做法。三是要鼓励举办数据标注创新大赛等活动,提高数据标注从业人员的专业技能,激发社会各界推动数据标注产业发展的积极性、主动性、创造性。03 着力构建完善的数据标注产业生态完善的产业生态建设对数据标注行业发展至关重要,有助于推动产业链上下游的整合与协同,为行业健康发展提供了基础和保障。(一)激发各类经营主体的活力数据标注产业健康有序发展,需要各类主体共同参与和协作。《实施意见》提出要着力壮大经营主体,发挥数据标注龙头企业、科技创新性企业、瞪羚企业和独角兽企业、中小企业等各类主体在数据标注产业发展中的作用,推动数据标注技术的发展和应用,促进产业生态的构建,提升行业竞争力。数据标注龙头企业拥有强大的技术实力和市场影响力,通过自建数据标注平台,推动技术创新和行业标准的制定,在数据标注产业中扮演引领和示范角色。科技创新型企业是推动数据标注技术进步的重要力量,通过研发先进的数据标注工具,提高标注效率和准确性,促进产业的技术升级和应用拓展。瞪羚企业和独角兽企业以其独特的核心技术和市场潜力,成为数据标注行业的领军者和创新标杆。数据标注中小企业通过提供定制化的数据标注服务,满足特定领域和细分市场的需求。(二)畅通数据标注产业链环节《实施意见》提出,要畅通数据采集、标注、人工智能应用产业链,推动数据标注产业上下游协同发展,完善数据标注产业生态。数据标注产业链可分为三个部分:上游资源提供方提供原始数据,同时又是数据标注业务的场景赋能对象。中游数据标注核心服务方提供数据标注技术服务、平台服务、交易服务和人力服务,有效提高数据价值,助力数据产业价值释放。下游配套支撑方从标准应用、人才培养、生态培养和安全保障等四个方面赋能数据标注核心产业。推动上游资源提供方、中游数据标注核心服务方和下游配套支撑方产业链协同发展,构建更加完善、高效的产业生态。(三)推动数据标注业务走出去,技术和人才引进来《实施意见》提出,依托我国数据基础设施优势,鼓励国内企业承接数据标注国际业务。具体来说,就是要推动我国数据标注企业逐步走向国际市场,拓展海外业务,为国际供给一批符合我国社会主义核心价值观的高质量数据集。《实施意见》提出,开展数据标注科技人才国际交流,深化数据标注领域技术及产业国际合作,支持企事业单位牵头制定数据标注国际标准。具体来说,就是要培养一批具有国际视野的数据标注人才,加速人才链与产业链的有效对接,显著增强中国在全球数据标注产业中的影响力,主导形成国际统一的数据标准和共享机制,促进数据标注产业高质量、国际化发展。总之,《实施意见》为数据标注产业指明了高质量发展的方向,对于数据标注产业的政策支持、创新驱动、生态培育、需求牵引和服务保障等方面都具有积极的推动作用。以政策为牵引,通过政、产、学、研、用多方协同,我国数据标注产业将迎来繁荣发展,为人工智能高质量发展奠定坚实的数据底座。
2025-01-23中央有关部门,国务院各部委、各直属机构,最高人民法院,最高人民检察院,有关人民团体,各省、自治区、直辖市、新疆生产建设兵团发展改革委、数据管理部门,有关中央企业:为贯彻落实《中共中央办公厅、国务院办公厅关于加快公共数据资源开发利用的意见》,加强数据基础制度建设,规范公共数据资源授权运营,促进一体化数据市场培育,释放数据要素价值,我们制定了《公共数据资源授权运营实施规范(试行)》。现印发给你们,请遵照执行。国家发展改革委国家数据局2025年1月8日公共数据资源授权运营实施规范(试行)第一章 总 则第一条 为推进公共数据资源开发利用,规范公共数据资源授权运营,促进一体化数据市场培育,释放数据要素价值,根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等法律法规,按照《中共中央、国务院关于构建更加完善的要素市场化配置体制机制的意见》《中共中央、国务院关于构建数据基础制度更好发挥数据要素作用的意见》《中共中央办公厅、国务院办公厅关于加快公共数据资源开发利用的意见》要求,制定本规范。第二条 在中华人民共和国境内开展公共数据资源授权运营活动,适用本规范。第三条 授权运营,是指将县级以上地方各级人民政府、国家行业主管部门持有的公共数据资源,按照法律法规和相关要求,授权符合条件的运营机构进行治理、开发,并面向市场公平提供数据产品和技术服务的活动。实施机构,是指由县级以上地方各级人民政府或国家行业主管部门结合授权模式确定的、具体负责组织开展授权运营活动的单位。运营机构,是指按照规范程序获得授权,对授权范围内的公共数据资源进行开发运营的法人组织。第四条 公共数据资源授权运营应遵循依法合规、公平公正、公益优先、合理收益、安全可控的原则。第二章 基本要求第五条 县级以上地方各级人民政府、国家行业主管部门可将依法持有的公共数据资源,在落实数据分类分级保护制度要求,不危害国家安全、公共利益,不侵犯商业秘密和个人隐私、个人信息权益等合法权益前提下,纳入授权运营范围。以政务数据共享方式获得的其他地区或部门的公共数据,用于授权运营的,应征得共享数据提供单位同意。第六条 开展授权运营活动,不得滥用行政权力或市场支配地位排除、限制竞争,不得利用数据和算法、技术、资本优势等从事垄断行为。运营机构应依法依规在授权范围内开展业务,不得直接或间接参与授权范围内已交付的公共数据产品和服务再开发。鼓励其他经营主体对运营机构交付的公共数据产品和服务再开发,融合多源数据,提升数据产品和服务价值,繁荣数据产业发展生态。第七条 国家数据局负责全国公共数据资源授权运营工作的统筹协调管理,动态掌握全国公共数据资源授权运营情况,加强政策、业务指导。省级数据管理部门应发挥综合协调作用,强化数据资源整合,提升数据服务能力,充分发挥公共数据资源规模化应用效应,做好对本地区授权运营工作的监督管理。国家行业主管部门数据管理机构负责推动本部门公共数据资源授权运营工作,指导本行业加强授权运营范围内的行业数据资源管理。第三章 方案编制第八条 县级以上地方各级数据管理部门、国家行业主管部门数据管理机构应牵头组织编制或指导本地区、本部门各类实施机构编制公共数据资源授权运营实施方案。实施方案应兼顾经济和社会效益,确保可实施可落地。第九条 实施方案应包括以下内容:(一)授权运营名称;(二)授权运营的必要性和可行性论证;(三)运营机构的选择条件,包括资金、管理、技术、服务、安全能力等;(四)授权运营模式,包括整体授权、分领域授权或依场景授权等;(五)授权运营的数据资源范围、数据资源目录、数据更新频率及数据质量情况等;(六)授权运营期限、建设内容、技术保障、实施进度、评价标准、退出机制、资产管理等;(七)拟提供的公共数据产品和服务清单,应包括支持公共治理、公益事业和产业发展、行业发展两大类,以及预期产品和服务形式等;(八)运营机构授权范围内经营成本和收入等核算机制、收益分配机制等;(九)数据安全、个人信息保护措施和应急处置措施;(十)实施机构、运营机构及相关参与方权利义务;(十一)授权运营的监督管理及考核评价要求;(十二)应当明确的其他事项。第十条 可行性论证内容应包括但不限于授权运营数据全生命周期管理服务、社会需求、市场规模、预期成效、风险防控等。第十一条 公共数据资源授权运营实施方案应按照“三重一大”决策机制要求,审议通过后实施。县级以上地方各级数据管理部门应负责或协助将本地区实施方案报请本级人民政府审议。国家行业主管部门数据管理机构应负责或协助将本部门实施方案报请本部门的部(委、局)务会审议。经审定同意的实施方案,原则上不得随意变更,确需作较大变更的,应按原流程重新报请审议同意。省级数据管理部门、国家行业主管部门数据管理机构应做好本地区、本部门各类实施方案的备案管理。第四章 协议签订第十二条 实施机构应当根据审定同意后的实施方案,按照法律法规要求,以公开招标、邀请招标、谈判等公平竞争方式选择运营机构。招标、采购、谈判文件有关授权运营协议内容应充分征求各方意见。运营机构应具备数据资源加工、运营所需的管理和技术服务能力,经营状况和信用状况良好,符合国家数据安全保护要求。第十三条 实施机构应独立或会同本级有关业务主管部门,经实施机构“三重一大”决策机制审议通过后,与依法选定的运营机构签订公共数据资源授权运营协议。省级数据管理部门、国家行业主管部门数据管理机构应做好本地区、本部门各类授权运营协议的备案管理,加强对协议执行情况的动态跟踪。第十四条 公共数据资源授权运营协议内容应包括:(一)授权运营的公共数据资源范围及数据资源目录;(二)运营期限,原则上最长不超过5年;(三)拟提供的公共数据产品和服务清单及其技术标准、安全审核要求、业务规范性审核要求;(四)公共数据资源授权运营工作的技术支撑平台;(五)资产权属,包括软硬件设备、公共数据产品和服务的权属;(六)授权运营情况信息披露要求,运营机构不得直接或间接参与再开发要求;(七)运营机构授权范围内经营成本和收入等核算要求、收益分配机制;(八)数据安全、个人信息保护要求和风险监测、应急处置措施;(九)运营成效评价,续约或退出机制;(十)违约责任;(十一)争议解决方式;(十二)协议变更、终止条件;(十三)需要明确的其他事项。第五章 运营实施第十五条 实施机构应建立健全安全可控的开发利用环境,充分利用现有信息系统资源,鼓励集约化建设,支持隐私计算等安全可信流通技术应用,确保数据资源开发利用过程可管、可控、可追溯。第十六条 实施机构、运营机构应分别将授权运营范围内的公共数据资源、公共数据产品和服务,按照公共数据资源登记管理要求进行登记。第十七条 公共数据产品和服务价格按照国家有关价格政策执行。第十八条 实施机构应按规定公开授权运营情况,定期向社会披露授权对象、内容、范围和时限等,接受社会监督。第十九条 运营机构应公开公共数据产品和服务清单,定期向社会披露公共数据资源使用情况,接受社会监督。第二十条 授权运营应保护各参与方的合法权益。鼓励实施机构、运营机构依法合规通过技术、产品和服务、收益等方式,支持各地区、各部门数据治理和服务能力建设。第六章 运营管理第二十一条 实施机构应建立健全管理制度,强化数据治理,提升数据质量,落实数据分类分级保护制度要求,加强技术支撑保障和数据安全管理,严格管控未依法依规公开的原始公共数据资源直接进入市场,强化对运营机构涉及公共数据资源授权运营的内控审计。运营机构应履行数据安全主体责任,加强内控管理、技术管理和人员管理,不得超授权范围使用公共数据资源,严防数据加工、处理、运营、服务等环节数据安全风险。实施机构、运营机构应通过管理和技术措施,加强数据关联汇聚风险识别和管控,保障数据安全。第二十二条 运营机构应加强公共数据产品和服务相关的成本、收入和支出的内部管理,对公共数据产品和服务相关的财务收支按照现有财务管理制度进行管理,依法接受监督。第二十三条 开展公共数据资源授权运营应鼓励和保护干部担当作为,营造鼓励创新、包容创新的干事创业氛围,同时坚决防止以数谋私。开展授权运营应有效识别和管控数据资产化、数据资产资本化不当操作带来的安全隐患,切实防范化解金融风险。第七章 附 则第二十四条 县级以上地方各级数据管理部门、国家行业主管部门数据管理机构可根据本规范,结合实际制定实施细则。本规范实施前已开展授权运营的,应参照本规范逐步完善。本规范实施后新开展的授权运营活动按本规范执行。第二十五条 将中央党群机关、县级以上各级地方党委持有的公共数据资源开展授权运营,参照本规范执行。供水、供气、供热、供电、公共交通等公用企业持有的公共数据资源的开发利用,可参考本规范有关程序要求授权使用,维护公共利益和企业合法数据权益,接受政府和社会监督。第二十六条 本规范由国家数据局负责解释。第二十七条 本规范自2025年3月1日起施行,有效期5年,根据情况适时修订调整。
2025-01-22文 | 清华大学公共管理学院教授 孟庆国人工智能是新一轮科技革命和产业变革的重要驱动力量。数据标注是对原始数据进行采集、清洗、分类、标记、质量检验等专业数据治理活动,能有效提升数据供给质量,是人工智能发展的关键环节。大力发展数据标注产业,对推动人工智能创新发展、带动大学生就业和促进数字经济高质量发展具有重大意义。01 发展数据标注产业的重大意义(一)数据标注是提升数据供给质量的关键环节,是提升人工智能产业竞争力的先手棋大模型已成为中美科技竞争的制高点,数据供给质量决定了模型的基础能力。当前,全球主流基础大模型,中文语料仅占全部语料的1%,高质量中文数据成为制约我国基础大模型能力的瓶颈。训练一个领先的大模型,需要数百万甚至数千万条标注数据。数据标注发展水平成为决定中美人工智能胜负的关键因素。美国在数据标注领域投入巨大,培育了一批数据标注独角兽企业,产业迅速发展。例如,OpenAI在训练GPT系列模型时,投入数千人力和数亿资金进行数据标注,高质量语料集炼就了全球最好性能基础大模型。相比之下,我国虽是全球第二大数据资源国,但数据质量不高,开发利用比例低。全面提升中文语料质量,成为破解我国大模型发展和提升人工智能产业竞争力的关键环节。(二)数据标注是充分释放数据要素价值的前提条件,是数据要素价值化的必选项我国是全球第一个将数据资源作为核心生产要素的国家,加快数据要素市场化配置,发挥数据的倍增、叠加、放大效应,是实现数据要素价值赋能经济创新发展的关键。我国是数据资源大国,但不是数据资源强国。2023年,我国数据资源32ZB(泽字节),保存数据仅有2.9%,数据留存率远低于发达国家水平。数据质量低,大量数据被浪费,成为制约我国数据资源价值发挥的瓶颈。数据标注能为机器提供高质量的数据,赋能机器学习、深度学习等人工智能算法的训练,从而实现数据价值转化。以医疗领域为例,通过对大量医疗影像数据进行标注,可以训练出精准的疾病诊断模型,提高医疗诊断的准确性和效率,为患者提供更好的医疗服务。目前,标注数据已广泛应用于生成式人工智能、自动驾驶、电子商务、精准医疗、智能制造等智能场景应用,是数据要素化的必选项。(三)数据标注产业逐步向智能化、知识化和专业化迈进,是解决大学生就业的有效路径随着人工智能从通用领域向专业领域演进,数据标注对专业性、技术性的人才需求日益增长,数据标注产业也从劳动密集型,逐步向知识密集型转变,为大学生创造了数百万就业岗位。比如,美国从事数据标注的岗位超过30万,德国最大的数据标注公司Clickworker全球雇佣了120万标注员,印度到2030年数据标注人才的需求也将到100万。我国各地发展的数据标注基地,也对拉动大学生就业产生了显著效果。比如,日照数据标注基地,2024年从业人员突破1.1万人。国内大型互联网公司在全国数据标注基地人员都超过了数万人。通过发展数据标注产业,能够有效缓解大学生就业压力,促进人才培养与产业发展的良性互动。(四)发达国家纷纷布局数据标注产业,使之成为数字经济发展的基础性、战略性产业美国、德国、英国、印度等国家和地区纷纷将数据标注产业作为数字经济发展的基础性、战略性产业,支持数据标注产业发展。美国是数据标注产业发展的领航者,通过政府战略、企业创新、产业领先等方面,全方位推动了数据标注服务的高质量发展。特别是前沿技术的深度融合应用上。欧盟则通过构建“欧洲共同数据空间”和推动数据相关法案,整合了工业、绿色协议、移动、卫生、金融、能源、农业、公共行政、技能等多个战略性行业和领域的数据,试图构建欧洲统一数据市场并大力发展数据标注产业。印度凭借庞大的低成本数字人才优势,吸引全球科技巨头投资,大力发展数据标注产业,成为全球重要的数据标注基地。02 推动我国数据标注产业发展的思路与重点一是加快发展一批数据标注基地,培育壮大市场主体。今年5月,国家数据局公布首批全国数据标注基地建设城市名单,通过推动数据标注基地建设,以点带面大力发展数据标注产业,激发行业发展活力。以国家数据标注基地试点为抓手,围绕技术创新、行业赋能、生态培育、标注应用、人才就业和安全发展等六个方面做好试点,探索推进数据标注产业发展的最优路径。另外,通过加大财税政策支持力度、完善数据标注基础设施建设、制定行业标准规范、鼓励技术创新与应用、强化人才培养与引进等措施的实施,培育和壮大市场主体。二是鼓励数据标注核心技术研发,提升数据标注水平。通过国家重点研发专项,加大对人工智能技术在标注技术研发投入。加快数据标注技术研发费用纳入研发加计扣除,鼓励企业加快科技创新投入。重点布局跨语言、跨领域、跨模态语义对齐、4D标注、大模型标注、数据合成等标注核心技术攻关项目。支持研发专家标注、多模态标注、众包标注、标注审查、质量评估等智能化高端化工具,提升数据标注科技水平。三是围绕数据标注关键环节,制定数据标注标准。构建数据标注标准框架体系,加快制定数据标注的国家标准和行业标准,明确标注质量、流程、技术等方面的要求。建立健全数据标注标准实施与监督机制,促进协同创新。加强对数据标注企业和项目的监督和检查。四是加大数据标注人才培养,提升人才专业化素养。加强职业教育和培训体系建设,支持高校和职业院校开设数据标注相关专业和课程。推动企业与教育机构合作,共建实训基地和培训中心,培养具备专业技能和职业素养的数据标注人才。制定吸引和留住高层次人才的政策措施,促进数据标注领域的国际交流与人才合作。
2025-01-21文 | 北京交通大学信息管理理论与技术国际研究中心(ICIR)教授 张向宏7月18日,党的二十届三中全会审议通过了《中共中央关于进一步全面深化改革、推进中国式现代化的决定》,明确提出“建设和运营国家数据基础设施,促进数据共享”,10月9日,中共中央办公厅、国务院办公厅发布《关于加快公共数据开发利用的意见》,提出“加强数据基础设施建设,推动数据利用方式向共享汇聚和应用服务能力并重的方向转变。”“研究制订数据基础设施标准规范,推动设施互联、能力互通,推动构建协同高效的国家公共数据服务能力体系。”近日,国家发展改革委、国家数据局、工业和信息化部正式发布《国家数据基础设施建设指引》,正式按下国家数据基础设施建设的启动键,开启了国家数据要素化事业的新征程。01 为什么?——国家数据基础设施建设的重要意义(一)国家数据基础设施是下一个30年全球经济增长的新引擎上世纪90年代初,美国提出并开始实施“国家信息基础设施(NII)”行动计划,推动互联网在全球迅速普及,一举奠定了美国在传输网络、根服务器、IPV4协议等方面的技术领先优势,培育出了微软、英特尔、谷歌、脸书、亚马逊、苹果、特斯拉等一大批信息技术跨国企业,并推动全球经济高速增长了30多年。当前,国家数据基础设施(NDI)将成为引领下一个30年经济增长的新引擎,我国通过建设和运营国家数据基础设施并不断扩大在世界其他国家和地区的“朋友圈”,将不断增强在数据交换交易协议和标准等软基础设施制定的话语权,掌握适度超前的通信网络和算力等硬基础设施研发的主动权,进而引领数据新技术、新产品、新模式、新应用爆发,为我国培育出一大批新的全球型数据企业,并推动下一个30年全球数字经济高速发展。(二)国家数据基础设施是国家掌控数据战略资源的有效手段电力、通信、铁路等是工业时代的国家战略资源,必须牢牢掌控在国家手中。这些国家战略资源均具有网络状、跨区域分布等特点,我国通过建设覆盖全国的电力网、电信网、铁路网等基础设施,成立了一批中央企业,牢牢控制住了相应的战略资源。数据作为数字时代的国家战略资源,也必须牢牢掌握在国家手中。与电力、铁路、通信是工业时代国家战略一样,数据也具有网络状、跨区域分布等特点,通过建设横向联通、纵向贯通、协调有力的全国一体化国家数据基础设施,可以有效统筹运营国家公共数据资源和重要企业数据资源,将数据这一数字时代的新型战略资源牢牢掌握在国家手中。(三)国家数据基础设施是实现数据安全高效流通的技术保障自上世纪90年代互联网普及以来,全球数据资源爆发性增长。但是,在全部数据资源中,只有两成左右是可流通数据,八成左右是个人隐私、企业机密、国家秘密等不可流通数据。即使在20%可流通数据中,在万维网上真正流通起来的结构化数据只有4%,而其他16%的图片、音频、视频等多模态非结构化数据,由于技术还未突破而不能在互联网上自由流通。近年来,随着人工智能大模型的异军突起,对数据资源的需求陡增,据京数智科技研究成果,预计到2028年全球可流通数据将完全耗尽。数据生产方式将从互联网上采集结构化数据的传统方式转向数据资源的广度和深度两个方向拓展:第一个方向是向广度拓展,即从互联网爬取数据向物联网自动生成数据拓展。各种可穿戴设备、智能家电、道路监控设备、工业互联网自动感应装置等生成的多模态非结构化数据,正成为当前数据来源的主流,专业化的数据标注与合成技术正成为海量非结构化数据转化为高质量数据集的关键核心技术。第二个方向是向深度拓展,即过去由于涉隐涉密而被尘封的海量私域数据,正在成为人工智能高价值数据集的重要数据源。传统意义上的不可流通数据,将在依托隐私保护计算、区块链、控制技术、可信数据空间、数联网、数场等数据安全流通技术构建的数据基础设施支撑下,逐步都变成可流通数据,实现在安全可信条件下的大规模、快速率、高通量流通利用。(四)国家数据基础设施是构建全国一体化数据市场的支撑底座2022年3月25日,中共中央、国务院发布《关于加快建设全国统一大市场的意见》提出,加快培育数据要素市场,建立健全数据安全、权利保护、跨境传输管理、交易流通、开放共享、安全认证等基础制度和标准规范,推动数据资源开发利用,加快培育统一的技术和数据市场。2024年7月18日,党的二十届三中全会通过《中共中央关于进一步全面深化改革、推进中国式现代化的决定》提出,完善主要由市场供求关系决定要素价格机制,防止政府对价格形成不当干预,健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制,培育全国一体化技术和数据市场。依托数场、隐私保护计算、区块链、可信数据空间、数联网、数据元件等数据安全流通技术建设和运营国家数据基础设施,可以通过数据资源登记平台确定数据产权归属,通过公共数据开放共享平台和授权运营平台保障数据供给,通过数据加工分析平台确保高质量数据集供给,通过数据运营平台确保数据融合应用,通过数据交易平台实现数据资源和数据产品有序交易,由此实现全国数据资源一体化汇聚、处理、流通、应用、运营等,保障全国一体化数据市场的形成和完善。02 是什么?——国家数据基础设施的涵义及其特征(一)国家数据基础设施的涵义国家数据基础设施是从数据要素价值释放的角度出发,面向社会提供数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,是集成硬件、软件、模型算法、标准规范、机制设计等在内的有机整体。国家数据基础设施在国家统筹下,由区域、行业、企业等各类数据基础设施共同构成。网络设施、算力设施与国家数据基础设施紧密相关,并通过迭代升级,不断支撑数据的流通和利用。(二)国家数据基础设施的特征从以上涵义可以看出,国家数据基础设施具有一个目标、八大功能、三类设施和四重架构等四方面特征:一个目标。建设和运营国家数据基础设施的目标就是充分释放数据要素价值。通过构建安全可信、高效流通的国家数据基础设施,从根本上解决数据“供不出、流不动、用不好”的难题。八大功能。国家数据基础设施具有数据采集、汇聚、传输、加工、流通、利用、运营、安全服务等八项功能。即国家数据基础设施在确保安全前提下,提供了一个数据“采汇传算流用运”等数据流通利用功能于一体的环境和设施。三类设施。国家数据基础设施是以区域数据基础设施和行业数据基础设施为主体,以企业数据基础设施为有益补充的横向联通、纵向贯通、协调有力的全国一体化数据基础设施。四重架构。国家数据基础设施由网络基础、算力底座、流通利用和全过程安全等四类设施组成,其中,数据流通利用设施是核心,网络和算力设施是底座,安全设施是保障。即数据流通利用设施为数据流通利用提供安全可信环境,包括可信数据空间、数场、数据元件、数联网、区块链网络、隐私保护计算平台等技术设施,网络和算力设施提供数据高速传输和算力高效供给等基础支撑,安全设施为国家数据基础设施安全可靠运行的提供安全保障。03 做什么?——国家数据基础设施建设的技术路线国家数据基础设施建设和运营是一个前无古人的创新事业,需要从技术创新和应用普及两端同时发力,相向而行。一方面,应组织和出台国家级重大研发等相关政策,鼓励和支持企业不断创新突破数据可信安全流通技术。另一方面,应大力支持和鼓励数据可信安全流通技术在更大范围、更多领域应用,在应用中持续迭代技术、不断降低成本,最终实现数据安全流通技术基础设施化。1.技术路线1——隐私保护计算技术隐私保护计算指在保证数据提供方不泄露原始数据的前提下,对数据进行分析计算的一类信息技术,保障数据在产生、存储、计算、应用、销毁等数据流转全过程的各个环节中“可用不可见”。隐私保护计算的常用技术方案有安全多方计算、联邦学习、可信执行环境、密态计算等;常用的底层技术有混淆电路、不经意传输、秘密分享、同态加密等。2.技术路线2——区块链技术区块链是分布式网络、加密技术、智能合约等多种技术集成的新型数据库软件,具有多中心化、共识可信、不可篡改、可追溯等特性,主要用于解决数据流通过程中的信任和安全问题。3.技术路线3——数据使用控制技术数据使用控制技术是指在数据的传输、存储、使用和销毁环节采用技术手段进行控制,如通过智能合约技术,将数据权益主体的数据使用控制意愿转化为可机读处理的智能合约条款,解决数据可控的前置性问题,实现对数据资产使用的时间、地点、主体、行为和客体等因素的控制。4.技术路线4——可信数据空间可信数据空间是基于共识规则,联接多方主体,实现数据资源共享共用的一种数据流通利用设施,是数据要素价值共创的应用生态,是支撑构建全国一体化数据市场的重要载体。可信数据空间须具备数据可信管控、资源交互、价值共创三类核心能力。5.技术路线5——数场数场是依托开放性网络及算力和隐私保护计算、区块链等各类关联功能设施,面向数据要素提供线上线下资源登记、供需匹配、交易流通、开发利用、存证溯源等功能,支持多场景应用的一种综合性数据流通利用设施。数场从点、线、面、场、安全五个维度构建标准化技术框架。点是数据主体进入数场的接入点。线是数场内连接各主体、各平台的高速数据传输网,实现数场内各主体之间的互联互通。面是数场中数据主体、传输网络的集合,是实现数据大规模流通、高效安全利用的核心。由点到线、由线到面构成数场基础设施。场是基于数场基础设施构建的数据应用、场景化创新,以及相关能力、流程、规范的统称。安全是覆盖点、线、面、场的动态全流程保护措施。数场在技术架构上包括接入点、功能平台、管理平台、安全保障、网络传输等基础服务平台。6.技术路线6——数联网数联网由数据流通接入终端、数据流通网络、数据流通服务平台构成,提供一点接入、广泛连接、标准交付、安全可信、合规监管、开放兼容的数据流通服务。7.技术路线7——数据元件数据元件提供统一标准、自主可控、安全可靠、全程监管的数据存储和加工服务,支持采用标准化工序完成数据产品规模化加工、生产和再利用,适用于大规模数据加工和生产场景。数据元件作为连接数据供需两端的“中间态”,将原始数据与数据应用“解耦”,基于数据元件相关组件,实现从数据归集到数据元件加工交易全生命周期的数据要素开发和管控。04 怎么做?——国家数据基础设施建设的实施路径国家数据基础设施建设和运营,一方面要鼓励地方、行业、企业积极探索,大胆实践,并且应包容创新,允许失败。另一方面应加强国家数据基础设施标准制定工作,按照统一目录标识、统一身份登记、统一接口要求,建设数据流通利用设施底座。(一)加强顶层设计国家数据基础设施最终将建设成一个横向打通、纵向贯通的全国一体化设施,各地方、各行业、各企业在建设之初就应按照统一标准实施。应加强国家数据基础设施标准制定和实施工作,特别是要尽快按照统一目录标识、统一身份登记、统一接口要求等标准规范,加快建设国家数据流通利用设施底座。(二)分步建设实施国家数据基础设施既面临需求迫切的要求,也面临技术和应用不成熟的考验。因此,一方面要坚定地试,大胆地用,另一方面也要把握节奏,持续迭代发展。因此,今后5—10年,国家将三步走策略,分阶段突破数据安全流通关键技术和基础设施化。第一阶段为试点试验阶段。一方面组织国家重大科技专项,对隐私保护计算、区块链、控制技术、可信数据空间、数场、数联网、数据元件等为代表的数据可信安全流通关键核心技术开展技术攻关,以期快速实现技术突破;另一方面将通过国家数据基础设施建设试点试验,并行开展各种技术路线的探索实践。第二阶段为技术收敛阶段。通过试验试点,逐步淘汰资源消耗大、传输计算效率低的技术路线,围绕资源消耗和传输计算效率达标的技术路线进行提炼总结,研究制定国家推荐的数据安全可信流通技术标准和数据流通利用基础设施建设标准,形成国家安全可信数据流通技术路线。第三阶段为全面建设阶段。在全国各城市、各行业推广应用已收敛的技术路线,大规模建设行业数据基础设施、城市数据基础空间,鼓励建设企业数据基础设施,最后实现互联互通,形成横向打通、纵向贯通、协调有力的国家数据基础设施。
2025-01-17文 | 中国工程院院士 孙凝晖党的二十届三中全会明确提出“建设和运营国家数据基础设施,促进数据共享”,按照党中央、国务院决策部署,国家发展改革委、国家数据局、工业和信息化部编制和发布了《国家数据基础设施建设指引》,指导推进数据基础设施建设,推动形成横向联通、纵向贯通、协调有力的国家数据基础设施基本格局,打通数据流通动脉,畅通数据资源循环,促进数据应用开发,培育全国一体化数据市场,夯实数字经济发展基础,为数字中国建设提供有力支撑。01 数据已经成为智能时代的关键生产要素随着新一轮科技革命和产业变革的深入推进,数据成为继土地、劳动力、资本和技术之后的“第五个关键生产要素”,深刻改变着生产、生活和社会治理方式。在数据驱动的智能时代,数据被赋予了资源要素与价值加工两重属性,数据的资源要素属性包括数据的生产、获取、传输、汇聚、流通、交易、权属、资产、安全与隐私等。数据的价值加工属性是指原始数据需要经过生产、流通和加工等多个环节才能增值,原始数据的价值不大,加工越深入则增值越大,通过加工工艺(即算法)和加工动力(即算力),对数据进行深加工和模型提炼才能实现数据的价值释放。纵观人类历史,每一个时代变革都会孕育出新的基础设施,农业时代是交通基础设施,工业时代是能源基础设施,信息时代是互联网基础设施,到如今在数据驱动的智能时代,是数据基础设施。智能的本质是数据的百炼成钢,数据基础设施是面向社会提供公共的数据采集、汇聚、传输、加工、流通、利用、运营、安全服务的一类新型基础设施,它集成硬件、软件、模型算法、标准规范、机制设计等在内,形成一个有机整体,贯穿数据价值释放的全生命周期。202 数据基础设施的参考模型与技术体系《国家数据基础设施建设指引》将数据基础设施体系划分为四部分:算力设施,流通设施,网络设施和安全设施,其中,网络设施和安全设施是传统的信息基础设施,算力设施和流通设施是新型基础设施。网络设施提供高速泛在的连接能力,算力设施提供数据深加工的关键计算能力,流通设施提供跨域数据高效流转的流通能力,安全设施保障数据要素关联计算和共享流通过程的安全。四个设施共同支撑数据要素能够“供得出、流得动、用得好、保安全”。我们认为,数据基础设施从数据全生命周期的视角也可以将参考模型分为四层:数据汇聚层、数据流通层、数据加工层和数据应用层。第一层是数据汇聚层,进行行业和政府的数据资源建设,实现海量数据的汇聚、标注、清理,建设国家级的数据枢纽与数据战略储备,解决“供得出”的问题。第二层是数据流通层,构建数据流通体系,解决数据“流的动”的问题,其中关键组件包括:数据标识,实现数据空间中的数据入库、全域索引;数据交换,实现数据空间中的全域发现和可信交换;数据访问,实现数据空间中的数据访问与操作、高效传输。第三层是数据加工层,是以数据件等统一抽象封装加工的对象,以算力网提供“无尽”的算力供给,以模型网管理与调度各类Build-in模型,解决数据“用得好”的问题。第四层是数据应用层,基于AI基础大模型、BigData模型和HPC模型等三类模型,构建算法层的基础设施,通过AI Agent等技术实现复杂任务的处理,赋能千行百业。03 “东数西算”工程为数据基础设施建设打下良好基础国家发展改革委推动的“东数西算”工程是我国在算力网领域最早的政府行动计划,在推动算力的基础设施化上发挥了先导作用。“东数西算”工程稳步推进两年多取得很大的进展,算力资源集中向八大国家算力枢纽内汇聚,特别是西部枢纽节点充分利用了绿电资源。在技术创新方面也取得了明显的成效,包括:异属算力并网、异构智算统一纳管、算力站间直连网络;算力跨域调度、算网协同调度、广域数据快递;超算互联网应用模式、城市/省域算力网运营等。“东数西算”工程正在形成自己的技术体系。《国家数据基础设施建设指引》的发布,将进一步与“东数西算”工程、全国一体化算力网建设相结合,以人工智能应用为牵引,不断促进各类新增算力向国家枢纽节点集聚,推动算力、算法和数据的融合创新,打通数据共享流通的动脉,夯实我国数字经济的基础。04 对国家数据基础设施建设的建议(一)统筹建设数据利用与数据流通两类基础设施数据基础设施中的数据流通和数据利用是两套系统,当前阶段应优先发展数据利用基础设施,做强需求端,由需求端拉动流通端,最终实现整个数据基础设施的互联互通。回顾互联网初期,互联网信息的供给端有动力共享自己的信息,互联网用户建设一个网站,接入互联网,希望全世界的人都来访问和使用。当前阶段数据的需求端有动力利用数据,但供给端没动力提供数据。需要先把数据的利用做好,价值增值做大,才能激发起数据供给端的动力,才有可能推动数据的流通。(二)统筹数据基础设施技术体系的统一和差异当前数据基础设施的技术体系五花八门,各成一体。历史上网络协议有OSI七层模型,操作系统有宏内核和微内核两种架构,数据基础设施技术体系的参考架构和关键技术组件应该统一起来。数据具有强大的场景特性,不同场景下数据的增值模式、数据的流通管理方式都是不同的,应针对不同场景分类抽象,构建多个不同的技术体系技术栈,来具体建设不同的数据空间基础设施实例。
2025-01-16