2025电力人工智能
智创奖
当前位置:首页 > 行业资讯
构建专业数据集 支撑电力科研更好应用人工智能技术
发布日期:2025-03-11 来源:国家电网报
【第3届电力行业数字化转型大会暨第5届电力人工智能大会】

数据集是一组相关数据的集合,通常以结构化形式(如表格、数据库)或非结构化形式(如文本、图像、音频)存在,是数据分析、机器学习和数据挖掘的基础。而科研数据集是指在科学研究中用于分析、实验和验证假设的数据集合,通常经过精心收集、整理和标注,以支持特定研究领域的问题探索和解决。


电力数据涉及生产、运行、维护和经营管理等多个领域。构建电力科研数据集为算法研究和模型验证提供了统一的基准,可支持负荷预测、需求响应优化、分布式能源管理、电力市场分析等相关任务,助力电力领域科学研究。


电力科研数据集应具备高质量、多维度和高时效等特性


在我国,随着用能需求的不断增长以及可再生能源的快速发展,电力系统正面临前所未有的挑战。人工智能技术可推动构建新型电力系统,而海量数据是人工智能模型拥有强大能力的关键要素。依靠人工智能技术开展模拟、训练、推演和验证等工作,需要大量完整、真实的数据集来检验方法和模型的有效性。


2024年12月,国家数据局等部门印发的《关于促进企业数据资源开发利用的意见》提出,支持企业面向人工智能发展,开发高质量数据集。在科研、制造、农业、能源、交通、金融、通信、广电、医疗、教育、商贸流通、文化旅游等重点行业领域,打造一批示范带动性强的人工智能创新应用,深化“人工智能+”应用赋能千行百业。


电力科研数据集应具备高质量、多维度和高时效性等特性,能够覆盖输电、变电、配电及调度等多个领域,并确保数据的全面性和可用性。同时,电力科研数据集应支持多种应用场景,如模型开发、系统优化、故障诊断、仿真模拟和应用评测等,还需具备动态更新、标准化管理、跨平台兼容及隐私保护等功能,以确保数据的时效性、安全性和复用性。


我国构建电力科研数据集存在多种需求


结合我国电力行业发展实际情况,借鉴国外电力科研数据集构建经验,本文认为国内电力科研数据集构建存在以下需求:


高效的多源数据融合与数据治理体系。电力科研数据源自多个领域,且数据形式多样。不同来源的数据维度不统一,跨源数据之间语义不一致,增加了数据融合的难度。数据治理缺乏标准化流程,数据清洗、标注、增广等操作不统一,导致数据集治理周期长、效率低,影响数据有效集成与分析。因此,需要开展数据融合,构建完善的治理体系。


适应快速变化的数据平台管理机制。科研数据集往往滞后于实际需求。在快速变化的实验环境中,如果数据集缺乏动态更新机制,就难以及时反映最新的实验条件和设备状态,影响模型训练和实验分析的效果。鉴于以上情况,需要及时更新数据集,并构建多层级数据管理机制与版本控制机制,以满足电力科研实验按数据粒度提取样本、回溯问题版本的需求。


安全可控与高效复用的数据统一管理机制。科研数据集通常由不同的研究团队独立构建。在分散式的管理模式下,每个数据集的构建标准、数据格式、采集频率、数据质量控制等方面的差异较大,导致数据整合和复用困难。因此,需要开展数据统一管理,构建数据安全共享和快速复用机制。


可覆盖电力行业各类场景的稀缺数据采集方式。某些关键工况或极端条件下的稀缺数据在电力科研实验过程中难以获得,且受气候、地理、设备状态等因素影响,这些数据的质量和完整性参差不齐。此类数据的缺少将影响在特殊场景下对模型的评估,并影响模型的应用效果。所以,需要拓展稀缺数据采集方式,快速归集电力行业全场景科研数据,为电力科研打好数据基础。


从数据融合、更新、共享等方面提升科研数据集构建能力


针对现阶段我国电力科研对数据集的需求,建议通过探索多源数据融合方法、建立动态更新机制、构建统一数据共享平台、利用仿真技术与实验模拟弥补稀缺数据等方式提升科研数据集构建能力。


在多源数据融合和数据治理体系方面,建议建立统一的数据治理框架并推行标准化的数据清洗与预处理流程。针对电力科研数据的多样性,制订统一的数据格式和数据结构规范,使不同来源的数据能够无缝对接和集成。建立跨团队的数据治理协作机制,确保数据标注、清洗、增广等操作规范化、标准化,提高数据处理的效率和一致性。建立基于元数据的管理系统,使各个环节的数据处理流程透明化和可追溯,提升数据的质量和可靠性。


在数据更新和数据平台管理方面,建立自动化的数据更新系统,依据设备状态变化、实验进程等动态因素,自动采集并上传最新的数据,确保数据集反映现实情况。设计基于云平台的多层级数据管理体系,按照数据的不同粒度进行管理,实现数据集的分层存储和按需提取。建立数据版本控制机制,记录和管理每次数据更新的历史,以便科研人员根据实际需要提取最合适的数据集,建立数据异常时的回滚及容灾机制。


在数据共享与复用方面,建立统一的数据共享平台管理科研数据集,推动跨领域、跨团队的数据协作。依托数据共享平台,科研人员可获取各类电力科研数据。同时,数据共享平台应引入严格的权限控制机制,对用户进行访问控制,确保特殊数据的隐私性与安全性。


在稀缺数据采集方面,通过加强仿真数据生成与实验模拟来弥补现实数据的不足。可利用高性能计算和物理模型,结合气候、地理等因素开展多场景、多工况的仿真实验,生成极端条件下的稀缺数据。探索与设备供应商、气象机构等合作,推动现场数据的采集与共享。采用数据增强技术,将已有数据生成不同的变种,进一步扩展数据覆盖范围,确保模型训练的全面性和准确性。


(作者:陈振宇 杜建光 杨诗语,单位:国家电网有限公司大数据中心)


活动报名

sign up

联系我们:

2025第6届电力人工智能大会暨第4届电力行业数字化转型大会

电话:171 8013 4127(微信同号)

沪ICP备16049902号-10

公司简介:

上海共燊信息科技有限公司成立于2016年,是第2届电力行业数字化转型大会暨第4届电力人工智能大会的承办方之一,公司承接设计、制作各类广告,会务服务,展览展示服务,企业形象策划,市场营销策划,公关活动策划,文化艺术交流活动策划,商务信息咨询,市场信息咨询与调查等。

关注官方公众微信号