云起无垠:SecGPT-全球首个网络安全开源大模型

2023年是人工智能的奇迹年,OpenAI的ChatGPT横空出世,在自然语言的人机对话领域实现了突破性的智能表现。人工智能技术的革命性应用已在各行业引发了热潮,医疗、金融、法律等领域都涌现出了垂类开源大模型,为行业应用带来了无限可能性。与其他行业类似,网络安全从业者们也一直在积极探索安全垂直大模型的实际应用。这一趋势在网络安全领域引发了深刻的变革,为保护互联网生态系统和应对不断增长的威胁提供了新的工具和方法。

近日,云起无垠公司发布了名为「SecGPT」的网络安全大模型开源项目。该项目是全球首个开源的网络安全大模型,截止目前已经在GitHub上积累了超过400个star,受到了广泛的业界关注。云起无垠希望贡献自己的力量,推动网络安全领域迈向智能化时代,实现“让软件更安全,让安全更智能”的企业使命。

1.SecGPT

SecGPT的愿景是将人工智能技术引入网络安全领域,以提高网络防御的效率和效果。其使命是推动网络安全智能化,为社会提供更安全的数字生活环境。

SecGPT可以作为基座安全模型,用于探索各种网络安全任务。以下是对SecGPT在网络安全任务中可能应用的进一步探讨:

1.漏洞分析:SecGPT可以与安全研究人员或开发团队进行多轮对话,共同分析和审查应用程序或系统中的潜在漏洞。它可以帮助识别和理解漏洞的性质、潜在影响以及可能的修复方法。

2.溯源分析:在网络入侵事件调查中,SecGPT可以与调查员合作,协助分析网络流量、日志和事件记录,以追踪攻击者的活动路径,从而支持安全溯源分析。

3.流量分析:SecGPT可以分析网络流量数据,识别异常流量模式,帮助检测潜在的网络攻击或入侵行为,并提供应对这些行为的建议。

4.攻击研判:在面对未知攻击时,SecGPT可以与安全团队一起进行多轮对话,共同分析攻击的特征、模式和可能的来源,以便更好地理解和应对威胁。

5.命令解释:SecGPT可以解释和分析安全相关的命令、脚本或代码,帮助安全专家理解其功能、潜在风险和执行结果。

6.网安知识问答:SecGPT可以用于回答网络安全领域的问题,为安全从业者提供支持和解释,包括解释安全概念、提供最佳实践建议和分析最新的威胁趋势。

相较于其他的开源模型,SecGPT有以下几个重要的特色:

1.自写训练代码,节省显存: SecGPT提供了自己的训练代码,包括预训练、有监督学习和DPO强化对齐等功能。这使得即使使用小型显卡,也能够训练大规模的网络安全模型,为更多的开发者和研究者提供了参与网络安全研究的机会。

2.高质量网络安全训练集: SecGPT提供了精选的高质量网络安全类无监督训练集,使模型能够学习网络安全问题。这有助于提高模型对于网络安全领域的理解。

3.DPO强化学习: 通过DPO强化学习方法,SecGPT引入了安全专家的见解和答案,与模型原始输出一起作为数据进行训练。这种方法有助于模型更好地模拟安全专家的思维方式,提高了模型输出的实用性和准确性,使其更符合安全领域的需求。

4. 无道德限制:在网络安全领域,无道德限制的GPT模型具有优势。比如模型可以深入分析和解释恶意软件的代码、行为和影响,而不受道德限制的束缚。当然,需要注意的是,无道德限制并不意味着可以不受限制地使用这些模型。在执行敏感网络安全任务时,仍然需要谨慎考虑法律、道德和隐私问题,并遵循适用的法律法规和道德准则。

2. 效果展示

1) 代码审计&解释&修复建议

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

2)反汇编伪代码分析

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

3)钓鱼邮件编写

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

4)命令解释

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

5)日志分析

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

3.模型训练

目前,SecGPT不仅开源了基座模型,还开源了所有的训练代码以及数据(包括预训练,有监督训练,DPO训练等大模型全流程训练代码)和网络安全训练数据。我们鼓励任何人都使用这些代码和数据去训练自己的网络安全大模型!该模型的训练过程大致如下图所示:

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

1)基座模型

(1) 选用Baichuan-13B模型作为基座模型进行训练(无道德限制,较好中文支持,显存资源占用小)

(2) 训练环境与配置:

① webdemo推理:2*4090(24G)

② lora训练:3*4090(24G)

2)微调技术

(1) 基于Lora做预训练和SFT训练

(2) 优化后的训练代码可展示训练的底层知识

(3) 大幅减少训练的显存占用,可在3*4090显卡上训练

3)训练数据

(1)预训练数据

① 收集安全书籍,安全知识库,安全论文,安全社区文章,漏洞库等等安全内容。

② 数据开源地址:在huggingface.co/datasets/w8ay/security-paper-datasets

中查找。

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

(2)有监督训练数据

① 利用ChatGPT+人工构造各类有监督安全能力数据集,让模型能了解各类安全指令。

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

② 思维链:基于思维链方式构造有监督数据集让模型能够根据问题逐步推理到最终答案,展现推理过程。

③ 知乎回答:加入了部分高质量知乎数据集,在一些开放性问题上模型能通过讲故事举例子等方式回答答案和观点,更易读懂。

④ 为防止灾难性遗忘,在有监督数据中,通用能力数据:安全能力数据,约为5:1。

4)模型训练

(1)超参数信息配置:

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

(2)预训练配置:

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

(3)SFT训练配置:

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

(4)RLHF强化学习校准:

为了改善模型的输出质量,有以下两种策略可供选择。首先,可以通过使用更明确的提示词来引导模型,使其更专注于用户需求,从而生成更有针对性的回答。其次,可以采用RLHF强化学习方法,模型将生成多个答案,用户可以手动选择最优的答案,在后面进行强化学习,从而不断提高模型对齐的能力。SecGPT模型具备内置的RLHF选择器,每次会输出三个不同的答案。用户可以根据需求选择最佳答案,同时这也为后续的RLHF微调提供了有价值的数据,有助于模型进一步提升输出的质量。这些方法共同作用,有助于确保模型输出满足用户的预期,并在网络安全等领域中发挥更大的作用。

 

云起无垠:SecGPT-全球首个网络安全开源大模型

 

关于SecGPT网络安全大模型,这只是我们分享的一部分内容。云起无垠致力于将SecGPT开源大模型分享给更多的安全从业者,我们鼓励大家积极参与共同的研讨和交流,以不断改进和增强其功能。通过开源的方式,我们也期望加强网络安全从业者对这一大模型的理解和应用。

如果您有任何关于该模型的问题或建议,请随时在GitHub(搜:SecGPT)上提交issue或PR。我们热切欢迎各位共同参与建设,让SecGPT网络安全大模型能够惠及网络安全领域的每一位需求者!共同的努力将有助于提高网络安全的水平,确保数字生活的安全性。

①SecGPT开源地址:在github中搜SecGPT查找。

② 模型地址:在huggingface中根据如下路径huggingface.co/w8ay/secgpt查找。

③ 数据集地址:在huggingface中根据如下路径huggingface.co/datasets/w8ay/security-paper-datasets查找。

 

申请创业报道,分享创业好点子。点击此处,共同探讨创业新机遇!

本文素材来自互联网,如有侵权,请联系将及时删除!

© 版权声明
THE END
喜欢就支持一下吧
点赞6
评论 抢沙发
头像
欢迎您留下宝贵的见解!
提交
头像

昵称

取消
昵称

    暂无评论内容

随即推荐
WordPress主题–Betheme v28.1.3 破解版下载-铁虎资源网

WordPress主题–Betheme v28.1.3 破解版下载

Betheme 想要构建的不仅仅是一个 WordPress 主题,它可以轻松适应您需要处理的任何项目,而无需编写任何代码。一个从头开始设计的主题,以节省您的时间并帮助您享受自由……
test15700587的头像-铁虎资源网test1570058713天前
02314

raksmart日本云服务器产品优势

RAKsmart 的日本云服务器产品在面向亚洲(特别是东亚)及全球用户时,具备一系列显著优势,尤其适合追求低延迟、高可用性、灵活配置和性价比的用户。以下是其核心优势的详细分析,主机推荐小编为...
admin的头像-铁虎资源网admin10天前
0276
PiliPlus一款由民间大佬自制B站第三方工具-铁虎资源网

PiliPlus一款由民间大佬自制B站第三方工具

PiliPlus最新版是一款由民间大佬自制的B站第三方工具,PiliPlus软件为用户提供了丰富的功能和优质的观看体验,界面简洁友好,操作简单便捷,能够轻松上手,同时软件屏蔽了广告,感兴趣的千万别...
g123456的头像-铁虎资源网g12345622天前
02810
新凌印v4.3.0免费的抖音快手等去水印软件-铁虎资源网

新凌印v4.3.0免费的抖音快手等去水印软件

一款永久免费的抖音快手等去水印软件,简单方便快捷去水印,无需专业的技能和复杂的操作,一键即可轻松实现水印去除。
test43543905的头像-铁虎资源网test435439055天前
0288
傻瓜式一键破解各种软件一键攻克各大软件-铁虎资源网

傻瓜式一键破解各种软件一键攻克各大软件

【应 用 名 称】:幸运解锁器 【应 用 版 本】:11.8.4 【应 用 大 小】:10.84M 【应 用 介 绍】:幸运修改器是一款游戏权限辅助软件。借助软件您可以轻松获取各种高级权限,软件支持自定义解...
zxy2023的头像-铁虎资源网zxy202311天前
02115
普通人Deepseek创业,小红书、抖音橱窗开通核心运营技巧,打通创作到变现全链路-铁虎资源网

普通人Deepseek创业,小红书、抖音橱窗开通核心运营技巧,打通创作到变现全链路

零基础友好、Deepseek工具应用、AI内容创作实战、短视频矩阵(热门形式)、平台运营(小红书/抖音)、工具结合(剪映)、创业变现路径清晰。深入讲解小红书开店、选品、养号、找对标,以及抖音...
test7295367的头像-铁虎资源网test72953676天前
0217
万兴喵影Filmora AI Video v14.7.03国际高级版-铁虎资源网

万兴喵影Filmora AI Video v14.7.03国际高级版

Filmora 视频编辑器,前身为FilmoraGo 视频编辑器,是一款专为 YouTube 和 Tik Tok 而设计的高效视频剪辑和电影制作神器。这款软件包含超过 1000 首背景音乐,超过 5000 种各类贴纸和滤镜,以及...
JosephLomia的头像-铁虎资源网JosephLomia10天前
0448
数字人开发全流程:Maya建模到UE5整合,零基础掌握虚拟人核心技术-铁虎资源网

数字人开发全流程:Maya建模到UE5整合,零基础掌握虚拟人核心技术

该课程为零基础学员提供完整的AI数字虚拟人开发全流程培训,涵盖Maya建模、UE5引擎整合、大模型接入(ChatGPT/文心一言/星火)、语音交互系统开发等核心技术,实现从角色建模到实时交互的完整数...
test34463120的头像-铁虎资源网test3446312029天前
02710
幸运抽奖系统带后台源码PHP九宫格抽奖系统源码-铁虎资源网

幸运抽奖系统带后台源码PHP九宫格抽奖系统源码

幸运九宫格抽奖码, 九宫格抽奖系统源码 php+mysql, 微信抽奖系统 本程序在 PHP5.3 ~ PHP5.6 环境完美运行
test7295367的头像-铁虎资源网test7295367昨天
0348
安卓漫画屋v1.3.2去广告版-内置多漫画源-铁虎资源网

安卓漫画屋v1.3.2去广告版-内置多漫画源

漫画屋APP是一个广受欢迎的漫画阅读平台,为漫画爱好者提供了一个全面、便捷的阅读环境。在这个平台上,用户不仅可以享受到大量免费的漫画资源,还能体验到无广告干扰的舒适阅读氛围。无论是安...
test26464106的头像-铁虎资源网test2646410617小时前
02410