ChatGPT的训练过程 ptot训练

admin 2024-12-04 60阅读 0评论

本文目录一览：

1、如何构建GPT——数据标注篇
2、大模型训练技巧大揭秘
3、都2023年了我不允许你还不懂RLHF!【理论篇】

如何构建GPT——数据标注篇

数据标注在GPT中的应用包括数据审核、清洗、加工和挖掘，特别是非结构化数据的结构化处理。标注数据通常以JSON、XML格式交付，包括图像、语音、文本、视频等。文本标注也可使用TXT格式。其他数据，如医学影像数据，需单独定义输出标准。DICOM类型的数据需存储在DICOM数据集中。

支持计算机视觉：语义分割、矩形框标注、多边形标注、关键点标注、3D立方体标注、2D3D融合标注、目标追踪、属性判别等多类型数据标注；支持自然语言处理：文本清洗、OCR转写、情感分析、词性标注、句子编写、意图匹配、文本判断、文本匹配、文本信息抽取、NLU语句泛化、机器翻译等多类型数据标注。

同时，使用calibre进行书籍刮削，统一转为PDF格式。在标注过程中，采用gpt5进行数据标注，格式为书名和索引，结果将用于模型训练，分类包括政法、社会学等20多个子分类。目标是实现90%至99%的准确度。为了优化中文和外语资料分类，计划合并某些分类以增加数据量。

ChatGPT的训练过程 ptot训练

大模型训练技巧大揭秘

1、首先，训练数据的准备至关重要。大模型需要高质量且多样化的数据，包括网页、书籍、对话文本等，以及特定领域的语料如多语言数据和代码。数据清洗和预处理涉及剔除低质量内容、去重、保护用户隐私，以及使用SentencePiece等工具进行分词。

2、大模型的自监督学习方法，可以减少数据标注，在一定程度上解决了人工标注成本高、周期长、准确度不高的问题。

3、多张照片合成立体模型。Autodesk的123D Catch，用大概20张照片可以合成出三维模型出来。上面cherry chen（没法@ 到你，不好意思，同名的太多了）提到的3DCloud应该是类似的原理。单张照片生成立体模型。

4、大模型的训练，对计算资源要求极高。完成一次训练，如GPT-4，需要约三个月，使用25000块英伟达A100 GPU。单块GPU功耗400瓦，每秒15万亿次单精度浮点数运算。一次训练用去4亿度电，相当于加热200万立方米冰水至沸腾。全球GPU算力集群电力消耗持续增长，2023年占比0.1%，预计2030年占比2%。