2024AI语料行业报告：华为合作升级与市场前景

烽火研报•2024年05月31日•阅读 113

1 公司基本情况

1.1 领先的AI、大数据服务提供商

拓尔思成立于1993年，是中文全文检索技术的始创者，领先的人工智能、大数据和数据安全产品及服务提供商。公司2011年在深圳证券交易所创业板上市，自成立以来，公司始终坚持核心技术自主研发，拥有40+发明专利、1000+软件著作权，一直引领全文检索和搜索引擎数据库、自然语言处理(NLP)技术的原始创新和应用场景落地，成功服务了一批国家级重要信息化项目的建设，成为国家企业信用信息公示系统、信用中国、国家知识产权检索系统、GA云搜索等国家级基础设施的数据管理和检索引擎。

公司的主营业务系大数据软件及产品分析、人工智能软件产品及服务、安全产品、系统集成及其他。公司坚持“数智+赛道”的发展战略，以优秀的科技能力打造丰富的行业解决方案，为企业、政府实现数字化升级赋能。目前，公司的数智产品与服务已被国内外10000余家企业级用户广泛使用，尤其在企业数字化转型、数字政府、网络内容安全、融媒体、金融科技和开源情报等领域实现了深度应用。公司相关产品详细情况如下：

1.2 重视研发，在手订单充足

营收端：得益于公司向政务、融媒体、金融、安全四大行业深度拓展，公司2017 -2020年营收规模保持快速稳定的增长，从2017年的8.213亿元增长到2020年的13.09亿元。2020 -2023年营业收入虽有下降，但是得益于在融媒体、舆情和政府网站集约化市场确立的优势地位以及发力信创，打造了自主替代产品核心力，到2023年营业收入依然达到了7.81亿元。

同时据IDC预测，在“十四五”规划和数字政府政策的引导下，数字政府市场迎来重要发展窗口期，预计到2026年将达到2173亿元人民币的市场规模，是有效推动数字中国建设的重要组成部分。随着政府相关单位对人工智能（而非大数据）等产品需求的释放，公安、安全等刚性领域需求的增多，且公司针对政府相关单位客户的进一步下沉和拓展，潜在政府相关单位客户将增多，新增订单量预计上涨，并随着公司大模型等人工智能等相关新产品的不断推出和行业的横向拓展，公司业绩有望逐渐恢复并反弹。截至2023年末，公司在手订单金额为54,290.74万元，较2022年末增加1448.05万元，公司期末在手订单金额同比开始上升。

利润端：2018 -2020年归母净利润由60.93百万元上涨到了319.2百万元，2020年同比增长103.03%。从2021年开始，公司逐年加大研发投入，主营业务不再包括上年度合并报表涉及的公司西部区域总部及大数据研发和运营服务基地项目配套商业用房销售收入，以及原控股子公司耐特康赛网络技术(北京)有限公司的互联网营销业务收入，同时，子公司天行网安23年大幅减少集成业务，所以从2021年后归母净利润持续下滑，2023年同比增长率为-71.45%。

盈利能力与期间费用：公司毛利率水平相对较高，2018 -2023年主营业务毛利率分别为59.44%、61.75%、58.07%、62.13%、63.71%、68.73%。2018 -2023这六年之间毛利率始终保持在60%左右，并有着继续上涨的趋势。2022年，为提升自己产品的市场覆盖率，销售费用投入达到了1.406亿元，较2021年同比增长18.81%。从产品分类来看，公司主要业务为大数据、人工智能、安全软件及服务，随着公司市场地位不断提升，核心技术的不断开发，2024、2025年可能迎来业务发展新高峰。

研发费用：2022年，公司较大幅度增加研发投入，用于实现主营业务产品的版本技术的升级以及核心产品的开发。2022年公司的研发费用达到1.274亿元，公司推进构建云和数据服务生态，打造自主替代产品核心力，布局元宇宙，拓展虚拟人，提升公司未来的竞争力。

1.3 股权结构稳定，管理层经验丰富

公司拥有优秀的研发和技术团队，具备完善的人才梯队，拥有技术人员1353人，占比达到82.65%，本科及以上学历员工占比65.85%。公司核心技术团队拥有前沿的技术，管理层具有丰富的行业经验和技术积累。

公司的管理团队：董事长施水才先生，毕业于西安电子科技大学计算机应用专业，获硕士学位，2017年获清华大学五道口金融学院EMBA学位，1998年晋升教授。副董事长李渝勤女士，毕业于电子科技大学计算机工程专业，获学士学位，北京大学光华管理学院EMBA硕士学位，教授级高级工程师。

1.4 定增注册获批，进一步发力大模型研发

5月20日，公司发布《关于向特定对象发行股票申请获得中国证监会同意注册批复的公告》。据定增预案显示，公司拟定增发行不超约2.39亿股股份，募资总额不超约18.45亿元，用于拓天行业大模型研发及AIGC应用产业化项目。系基于公司的海量高质量行业数据、行业知识体系等知识型资产，在通用大模型的基础上构建拓天行业大模型，并实现AIGC在媒体、政务、金融等领域的产业化应用。

具体来看，公司18.45亿元募资中有8.41亿元将用于软硬件购置，5.1亿元将用于研发人员薪酬，2.57亿元用于租赁费，1.98亿元用于数据资源购买，分别占到总募资额的45.57%、27.66%、13.95%和10.73%，剩余3845万元为铺底流动资金。项目计划建设期为3年。根据公告，本项目的税后静态投资回收期为5.96年（含建设期3年），税后投资内部收益率为13.68%。

2 AIGC领军企业，语料+算法优势显著

2.1 算法+数据+算力三大核心要素决定AIGC产出质量

算法+数据+算力三大核心要素，决定AIGC产出质量。拓尔思将以“专业大模型+领域知识数据”为核，努力构建起个性化、专业性的内容自动生成壁垒。强大的AIGC技术。拓尔思在AIGC技术方面有着长期的投入和储备，这与公司一直专注自然语言处理技术的研发和互联网大数据的积累等优势一脉相承。

公司基于通用AIGC大模型，专注优势行业进行专业大模型的研发，融合学习行业特有的大数据和知识，提升大模型对行业应用的适配性，以预训练大模型、In-Context Learning、instruction tuning等技术为基础，将文本生成、交互式生成、跨模态生成、小样本学习、大模型与外部知识库的融合等功能作为研发重点，突破基于大模型的AIGC关键技术，在问答式AI、智能创作、搜索引擎等领域实现成功应用。

加快推进“智创”AIGC平台的研发。“智创”是一款专注文字生成类的内容自动生产平台，其依托公司长期积累的自然语言处理技术和人工智能平台产品为基础，融合开源大模型，将专注在辅助型、应用型、创作型等文本内容的自动生成研发，以个性化、专业性的内容自动生成为壁垒，保持在AI领域的技术竞争力。

海量的语料积累。公司作为领先的大数据及人工智能产品及服务提供商，拥有规模位列业界前茅的权威高质量公开数据超2000亿，并具备数千亿数据量的数据索引、标记、查询、挖掘分析能力，万亿级数据总量的秒级检索能力和日均亿级数据获取能力。近期与多家头部大模型的人工智能公司和国家级实验室签订合同，为其提供高质量多元化的数据，作为大模型预训练数据集。

公司自有的产业要素数据集、产业风险数据集与电子报刊数据、互联网主流新闻网站数据、新闻资讯客户端数据、政务网站数据、拓知基因数据库先后入选北京市首批与第二批人工智能大模型高质量数据集。2023年11月29日，2023人工智能计算大会AICC于北京开幕。智源研究院联合拓尔思等单位共建的“中文互联网语料库”（Chinese Corpora Internet，简称CCI）在大会分论坛大模型创新论坛上正式发布。在CCI中，拓尔思主要提供中央重点新闻网站及中央和地方政府门户网站数据集。

充足的算力。公司算力主要采取自采自建+公有云模式，能够有效满足行业大模型训练及技术迭代需求。2023年5月，公司已同首都在线签署战略合作协议，通过迁移算力至首都在线拓尔思专属算力平台，公司可以享受到更快速、灵活的智能算力服务，大大提高数据处理和计算效率。目前，公司已采购小批量A800显卡，A100算力性能主要通过算力租赁实现。

2.2 技术+产品+场景的完美结合促进AIGC商业落地

技术+产品+场景的完美结合，才能实现AIGC推动更多商业落地进程。拓尔思将在类人助手的道路上开拓全新模式，在G+B双端的需求持续催化下，优化创新对话式AI、智能创作、AIGC搜索引擎等应用场景，实现用数字化劳动力替代枯燥重复性劳动、扩充资源稀缺劳动力、协助人类完成相应任务和满足人类情感交流的需求。

公司深耕自然语言处理，致力于以数据智能应用为核心，赋能不同行业的数字化转型与降本增效的场景应用，并积极与客户携手，在AIGC相关领域，如机器写作、对话式AI、内容人机协同和自动报告生成等应用场景已相继打造出一批优秀实践案例。

精耕细分场景，从降本增效走向额外价值转移。结合拓尔思的优势行业与客户群体，公司将优先关注以下行业的AIGC细分场景：新闻出版：机器人写稿、内容创作协助、基于媒体大数据的自动报告生成（如热点舆情报告、传播力报告和榜单生成等）、多模态的自动配图（基于文本的图片、视频生成）。政务服务：公文辅助创作、政民互动服务（对话式AI的智能问答）、政务新媒体的创新应用（同新闻出版场景应用）、政策大脑的摘要/数据解读。金融领域：自动报告生成（企业报告、产业报告等）、证券研报的智能解读和摘要生成、上市公司的信息检索。通用行业：知识图谱构建、人机协同的内容生成（如水军回复、考试答题等）、开源报告的简报生成等。元宇宙和云服务：虚拟人服务（灵魂大脑包罗万象、主要是虚拟人的“理解力”与“创作力”相结合，重点是对话式AI、智能创作与虚拟人+物+景的自动生成）；数家资讯云服务的报告生成、资讯信息精准对话式检索；网察云服务的自动舆情报告生成等。

3 “拓天大模型”深度融合业务场景，推动用户生产力变革

3.1 拓天大模型面向多行业，拥有多个创新点

2023年6月29日，拓尔思拓天大模型成果发布会成功举办。基于在NLP 领域30年技术创新成果、10余年高质量数据和知识资产积累，以及在垂直行业10000多家企业级用户应用实践，公司发布“拓天大模型”，并面向媒体、金融、政务领域，推出了三大行业大模型。

和通用大模型相比，拓天大模型基于多年自主研发成果，在自主可控、中文特性加强、专业知识加强、实时数据接入、内容安全和价值观对齐、客户私有化部署等方面具有领先优势，并与业务场景深度融合，为用户带来生产力变革。拓天大模型拥有内容生成、多轮对话、语义理解、跨模态交互、知识型搜索、逻辑推理、安全合规、数学计算、编程能力和插件扩展十大基础能力，具有中文特性增强的可控生成技术、融合搜索引擎的生成结果可信核查、融合稠密向量的跨模态能力加强以及支持外界知识及时更新四大创新点。

（1）拓天大模型是由公司自主研发，满足自主可控和安全合规等国产化要求；

（2）拓天通过外挂知识库的方式接入实时数据，结合自研搜索引擎技术实现专业领域实时数据的融合利用，解决了训练成本过高，生成内容数据不能及时更新的问题；

（3）拓天通过扩充中文词表与海量通用中文语料、在不干扰原模型的情况下适配新增中文词向量等做法实现基座中文特性增强，同时通过对自有媒体、金融、政务等垂直领域数据集进行清洗与处理，进行专业预训练增强，实现专业能力的提升；

（4）通过剪枝、量化、稀疏、蒸馏等部署优化方案，降低大模型对算力资源的要求；

（5）针对大模型可能存在的幻觉问题，拓天从数据源头和专家级的知识标引等方面进行内容安全与价值观对齐；

（6）采用专家规范化标引+机器自动标引相结合的方式，对采集的内容资讯进行“精加工”，包括低噪、去重、数据结构化、数据归一化、内容标签化、属性知识化、安全合规核查等，实现数据与主流价值观对齐。

3.2 拓天媒体领域大模型

公司基于自有的1200亿+互联网媒体资讯数据，100亿+官媒数据，200万+人民数据，14大类知识标引规范12000+知识标引规则作为专业训练数据，打造了媒体专业大模型，主要功能覆盖内容生产智能助手、新一代搜索与推荐、多模态传播与服务三大业务场景。

拓天媒体行业大模型经过不断调优，支持13大类、24小类业务指令，通过模型可控生成技术优化，解决指令识别和任务分解稳定性问题，可用性提高，指令识别精度提升到96%。支持多数据源混合嵌入，支持第三方库API+私有库+互联网数据多数据源混合嵌入，模式可复制扩展到其他业务场景，发挥数智价值。支持视频数据智能问答，打通数据中台，实现数据接入，数据加工，语义分析，大模型对接全套流程。

写作核心能力不断优化，微调优化模型6 个版本，解决标题生成，文本风格迁移，文章续写，文章生成等质量和稳定性问题。作为国内媒体IT服务行业的主力厂商，拓尔思在融媒体领域市场占有率领先，用户覆盖72%的中央媒体、61%的省级媒体和40%的行业媒体。在拓天媒体大模型的技术服务支持下，拓尔思将为媒体用户提供基于自有数据资产进行私有化训练和工程化部署、场景可定制的专属大模型服务与AIGC应用。

3.3 拓天金融行业大模型

公司基于自有的110亿+金融主题数据、百亿级产业指标数据、30亿+产业要素明细数据、2亿+产业动态本体、500+以上标引维度、10000+知识标引规则、10万+产业标签作为专业训练数据，打造了金融专业大模型，主要功能覆盖智能风控、智能客服、智能投研等业务场景。具有风控舆情、生成研报、智能客服(消费者保护)和自动业务批处理的功能。

在2023年，公司不断调优金融大模型在风控和消保细分领域的行业指令，提升指令识别精准度。并全面开启现有产品核心功能基于AI原生应用的重构验证，支持定义多个Agent，例如企业上链Agent、舆情风险Agent、产业分析Agent等，最终串联形成Muti -Agent解决复杂行业问题。

3.4 拓天政务领域大模型

拓尔思基于自有的30万+篇公文类数据、200万+篇政策法规类数据、8000万+篇政务资讯类数据等数据作为专业训练数据，打造了政务专业大模型，主要功能覆盖公文辅助写作、政策大脑和新一代政务互动等业务场景。公司针对政策比对、政策查询、政策脉络分析、观点分析、办事咨询、智能培训、常务会议、便民问答等业务型指令进行指令识别调优，指令识别精度提升到94%。

大模型在政府行业的应用正逐渐展现出巨大的潜力和价值，政务大模型作为在基础大模型基础上进行微调而成的专用模型，更加贴合政府行业的需求和特性，为政府决策、公共服务、政策制定等方面提供了强大的支持。随着政务数智化的深入推进，政务大模型将在政府治理和社会发展中发挥越来越重要的作用。IDC预测，到2027年政府中生成式AI的应用将由任务自动化扩展到决策支持，将公民服务响应能力提高10%，公务员生产力提高15%。拓尔思将继续探索政务大模型的潜力与价值，以创新驱动赋能新质生产力发展。

（本文仅供参考，不代表我们的任何投资建议。如需使用相关信息，请参阅报告原文。）

参考报告：AI语料+大模型领军者，华为合作全面升级.pdf

2024AI语料行业报告：华为合作升级与市场前景

1 公司基本情况

2 AIGC领军企业，语料+算法优势显著

3 “拓天大模型”深度融合业务场景，推动用户生产力变革

最新报告

热门报告