海天瑞声李科分享技术赋能人工智能标注,高质量数据助推人工智能发展
3月9日,钛媒体华楠直播间「训练AI的人」专场直播中,海天瑞声副总经理、业务负责人李科受邀做客直播间,分享人工智能在标注和算法中有哪些技术革新、AI训练师如何教人工智能更懂人类,如何赋能人工智能产业。
华楠:
(资料图片仅供参考)
AI训练师是一个怎样的职业,请科总为我们简单介绍。
李科:
2021年底,人力资源社会保障部、工业和信息化部共同制定的人工智能训练师等6个国家职业技能标准出台。在《人工智能训练师国家职业技能标准》中,对于人工智能训练师的职业定义,是使用智能训练软件,在人工智能产品实际使用过程中进行数据库管理、算法参数设置、人机交互设计、性能测试跟踪及其他辅导作业的人员。人工智能训练师包含两个工种五大等级,分别为数据标注员和人工智能算法测试员,又分初级工、中级工、高级工、技师、高级技师这由低到高的五大等级。
华楠:
对于您提到的数据标注员和算法测试员,请您进一步介绍两个职业分别做什么工作,又有怎样的区别?
李科:
我们业内经常有一句话:有多少人工就有多少智能。
数据标注员从事的主要是人工部分的工作。根据相关的要求和规范,基于标注员自身的知识进行数据标注。举例来说,在人脸识别、自动驾驶场景中,很多数据是从真实世界中获取的原始数据,这些数据无法直接用作算法训练,需要通过人的加工,才可以形成最终被算法识别的结构化数据集。
例如在算法识别人脸数据的场景中,需要对人脸进行关键点标注。最简单的关键点包括两个瞳孔、一个鼻尖和两个嘴角。而随着算法进步,需要标注的关键点也随之增加。在以往的实际业务中,我们最多能够在一张脸上标注200多个关键点。
这听起来简单,但在实际操作过程中会遇到很多难点,如遇到暗光环境、侧脸环境、非正面环境等,标注员只能看见单侧的瞳孔,需要对应想象另一侧瞳孔的位置才能进行标注。
另外一个职位是算法测试员,主要对人工智能的算法性能和效果进行测试,通过定义一套测试的规范流程,最终得出测试结果。当算法迭代或系统升级,能够客观评判算法的升级或者迭代的方法是否取得了进步。
华楠:
目前什么样的人在从事数据标注,需要具备哪些专业知识?
李科:
从我们的人员架构可以看出,主要分为三类人员。
第一类是研发和算法人员。在训练算法的过程中,可能会需要百万、千万级的数据,我们需要开发专业的系统对数据快速准确的进行标注,同时通过算法辅助实现标注效率的提升。
第二类是项目管理人员。例如在标注1000万张人脸图片的项目中,项目管理人员需要在前期规划、项目实施、项目监控、项目交付等过程中把控项目进度,最终满足客户的交付需求。
第三类是广义概念的数据标注员。这其中包含了数据标注员、标注组长、质检组长,以及客户方可能会配备的验收员等,这些都是广义上被定义为数据标注的人员。
从我们的业务角度,可以概括的分为智能语音、计算机视觉、自然语言理解三大方向,对数据标注员也有着不同要求。例如在自动驾驶领域,主要分为2D、3D两个方面,在车载摄像头拍摄的街景照片中,标注员需要对车辆、行人、标识线、标识物、红绿灯等内容进行标注,我们会有针对性的对标注人员进行交通法规、汽车驾驶等相关培训。
但是在金融、医疗、法律等场景和更加细分和垂直的领域中,则要求标注人员拥有专业的知识储备。例如在CT图像中标注肺癌肿瘤生长点的位置具体,这就需要接受长时间培训的专业人员才能够满足标注的需求。
所以标注人员需要怎样的专业知识,也要根据需求具体问题具体分析。大部分的标注需求可以通过短期的培训达到标准,但针对特殊领域则需要长时间接受过专业的系统性培训才能够符合要求。
华楠:
最近大模型相关话题火热,模型背后其实就是数据,作为人工智能的三要素,利用数据训练形成算法很重要,如何通过数据标注和训练在场景中应用AI?要经历哪些阶段?
李科:
人工智能的发展主要得益于三个方面的发展,包括算力、算法和数据。正是因为海量的数据更好的满足了算法需求,所以才有了这一轮大规模的爆发和应用。我们有一句话叫做Garbage In, Garbage Out,如果输入的数据质量不高,输出的结果也会不尽人意。这句话从一定程度上表明数据质量的重要性,只有高质量、大规模、结构化的数据才能够提升人工智能系统的效果。
具体到人工智能系统层面来讲,通常分为两个阶段。第一个阶段是训练阶段:在这个场景下需要大量的训练数据,通过数据和算法得到模型。第二个阶段是推理阶段:在这个阶段会应用在训练阶段得到的模型,对新的数据进行推理。
例如在语音识别场景,首先我们在训练阶段设计出一个语音识别算法,然后通过使用大量的语音数据得到一个语音模型。接着进入到推理阶段,使用一句话输入到语音模型中,从而得到语音识别的结果,通常是一个文本。这就是整个AI应用的两个阶段。
具体到数据层面,通常我们会将数据的生产过程分为四大阶段:包括数据集设计、数据采集、数据清洗标注(也称为数据处理),以及数据质检和交付。
在数据设计和采集阶段,还是用人脸识别举例,在设计阶段中需要根据应用的场景,设计采集人数、性别,采集光线、角度、场景,是否需要多人组合采集等众多内容,才能进行采集并得到原始数据。在数据标注阶段,对标注过程进行规范处理,形成结构化数据。在最后的质检和交付阶段,需要进行严格的质量把控,将海量优质且安全合规的数据交付给合作方。
华楠:
随着AI越来越多的走进大家的生活中,AI技术也在不断进化,AI 数据标注以及算法有着哪些技术革新?
李科:
从数据的角度来讲,现在的技术演进是非常清晰的,主要是系统化和智能化。
在系统化方面,我们自主研发了大规模的标注系统。能够实现项目管理、流程管理、人员管理、数据管理等功能,尤其是数据安全管理。
在智能化方面,我们也拥有自己的算法团队,将算法运用到数据的生产过程当中,提升标注的效率和准确度。例如质检过程中,通过算法快速甄别出不合格的数据,更好的进行反馈和修改。
华楠:
训练AI需要大量的数据支撑,您认为一个合格的AI至少需要使用多少数据进行学习才能达到真正的智能化?
李科:
针对不同的场景,会有不同的要求。
通过公开资料我们可以了解到,最近非常火的ChatGPT大模型,它在训练过程中使用的数据是5000亿个token(token为语言中最小的语义单位,在英文中等于一个单词,在中文中等于一个词语)。但在自动驾驶场景,即便只是一个车道线识别,我们通常给合作方提供的数据都是在几十万帧到上百万帧的级别。
而语音识别场景则不同,谷歌此前公布的一个语音识别模型,可以识别100多种语言,使用了约1200万小时的数据进行训练。但有时也可以使用数千或者数万小时进行单一语种的语音识别模型的训练。总结来说,还是要看数据所应用的具体场景具体分析。
华楠:
对于最近大热的ChatGPT我们会感慨到它的逻辑清晰,连续回答,像这样的模型训练量大概需要多少数据,才能保证他有这样的强大的能力?
李科:
ChatGPT在训练数据层面有两大关键点。
第一个是基于大规模的数据。像我刚才提到的5000亿个token这种级别的数据,进行大模型的初始训练。
第二个是运用了RLHF基于人类反馈的强化学习。在强化学习的过程中大概使用了1-3万数量级的人类反馈,正是通过人类反馈来进行强化学习,才可以使得ChatGPT最终呈现出非常好的效果。
华楠:
国内也有很多从事相关研发的企业,其数据能力如何?与ChatGPT还有多少差距?
李科:
首先ChatGPT的很多数据是从公开来源获取的,其中较大的数据集包括一个通用数据集约4000多亿个token,还有两个书籍数据集,以及Wikipedia数据集。
另外一个重要的数据,就是RLHF基于人类反馈的强化学习数据,这个数据集由OpenAI自行研发,通过很多规则处理数据。这个数据集并未公开,是ChatGPT最终达到这么好的效果的关键因素。
从目前国内的情况来看,获得公开数据集是相对容易的,但其自研的数据需要我们人工智能从业者共同探索,如何提升技术能力达到ChatGPT的最终效果。
华楠:
最后一个问题,目前传统的数据来源主要还是依靠大量的人工进行标注,在未来很长一段时间内,这种模式是否成为训练数据的主要来源?
李科:
首先,认为数据标注是一个纯手动标注的工作,是有一定程度误解的。我们是非常注重研发能力的企业,包括我们的平台、算法、项目管理等各方面,只有通过不断的技术创新才能够更好的提升整体的质量与效率。
其次,我个人认为在短期内,人工标注不太容易被取代。数据标注可以理解为将人类的知识教给计算机,计算机才能够进行相关识别。我们自己也常说,其实我们就像是在为人工智能制作教材,帮助人工智能学习判断和推理。
【广告】
(免责声明:此文内容为广告,相关素材由广告主提供,广告主对本广告内容的真实性负责。本网发布目的在于传递更多信息,并不代表本网赞同其观点和对其真实性负责,请自行核实相关内容。广告内容仅供读者参考。)
(责任编辑:张晓波 )标签:
推荐文章
- 研究人员最新发现 单个细胞可同时处理成百上千个信号
- 陆军第73集团军某旅 创新升级模拟训练器材
- 长期暴露在光照下性能退化 科学家发现钙钛矿太阳能电池最大缺陷
- 宁夏启动双百科技支撑行动 构建高水平产业创新体系
- 陆军炮兵防空兵学院 毕业学员综合战术演习现地备课工作圆满完成
- 国内首颗以茶叶冠名遥感卫星 安溪铁观音一号发射成功
- 区域特色产业转型升级 四川屏山以“3+”模式推进科技创新工作
- 激发创新动能促进产业发展 无锡滨湖走出产业转型“绿色”路
- 绥化全域低风险!黑龙江绥化北林区一地调整为低风险
- 走访抗美援朝纪念馆:长津湖的寒冷,与战斗一样残酷
- 节后第一天北京白天晴或多云利于出行 夜间起秋雨或再上线
- 走近网瘾少年们:他们沉迷网络的病根何在?
- “双减”后首个长假:亲子游、研学游需求集中释放
- 获2021年诺奖的蛋白,结构由中国学者率先解析
- 他从一窍不通的“门外汉”,到重装空投“兵专家”
- 升旗、巡岛、护航标、写日志,他们一生守护一座岛
- 中国故事丨“沉浸式”盘点今年的教育好声音!
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- “双减”出台两个月,组合拳如何直击减负难点?
- 《山海情》里“凌教授”的巨菌草丰收啦
- 且看新疆展新颜
- 天山脚下,触摸丝路发展新脉动
- 160万骑手疑似“被个体户”?平台不能当甩手掌柜
- 网游新政下,未成年人防沉迷的“主战场”在哪?
- “辱华车贴”商家及客服被行拘,处罚要不放过每一环
- 沙害是自然界的恶魔,而他是荒沙碱滩的征服者
- 面对婚姻,“互联网世代”的年轻人在忧虑什么?
- IP类城市缘何吸引力强?玩法创新带动游客年轻化
- 国庆主题花坛持续展摆至重阳节
- 都市小资还是潮流乐享?花草茶市场呈爆发性增长
- 从1.3万元降到700元,起诉书揭秘心脏支架“玄机”
- 北京国庆7天接待游客超861万人次 冬奥线路受青睐
- 陈毅元帅长子忆父亲叮嘱:你们自己学习要好,就可以做很多事儿
- 报告显示:这个国庆假期,粤川浙桂赣旅游热度最高
- 中国科技人才大数据:广东总量第一,“北上”这类人才多
- 嘉陵江出现有记录以来最强秋汛
- 全国模范法官周淑琴:为乡村群众点燃法治明灯
- 线上教学模式被盯上,网络付费刷课形成灰色产业链
- 云南保山:170公里边境线,4000余人日夜值守
- 警方查处故宫周边各类违法人员12人
- 农业农村部:确保秋粮丰收到手、明年夏季粮油播种
- 受南海热带低压影响 海南海口三港预计停运将持续到10日白天
- 多地网友投诉遭遇旅游消费骗局,呼吁有关部门严查乱象
- 神经科学“罗塞塔石碑”来了:迄今为止最完整的大脑细胞图谱
- 汾河新绛段发生决口
- 陕西支援14省份采暖季保供用煤3900万吨
- 这场红色故事“云比拼”,穿越时空为我们指引方向
- 受琼州海峡封航影响 10月7日、8日进出海南岛旅客列车停运
- 辽宁省工信厅发布10月8日电力缺口橙色预警
- 广州10月8日至20日对所有从省外来(返)穗人员实施核酸检测
- 假期怎么过得这么快?国庆5.15亿人次出游,你咋过的?
- 国庆假期全国道路交通总体安全平稳有序
- 哈尔滨市南岗区爱达88小区将调整为低风险地区
- 新疆霍尔果斯市2例无症状感染者新冠病毒均为德尔塔变异株
- 百闻不如一见——北京大学留学生参访新疆
- 看,生机勃勃的中国
- 国庆假期中国预计发送旅客4.03亿人次
- 新疆兵团可克达拉市:195名密接者已全部隔离医学观察
- 山西平遥消防4天29次救援:拖着腿走路也要完成任务
- 国庆假期北京接待游客861.1万人次
- 冷空气自西向东影响中国大部地区 气温将下降4℃至6℃
- 新疆哈密市巴里坤县发生4.3级地震 震源深度9千米
- 国庆假期中国国内旅游出游5.15亿人次
- 公安部交管局:国庆假期日均出动警力18万余人次,5位交警辅警牺牲
- 受南海热带低压影响广东将暂别高温天气
- “数说”杭州无障碍改造:触摸城市“爱的厚度”
- 新疆霍尔果斯无症状感染者新冠病毒属德尔塔变异株 未发现高度同源的基因组序列
- 新疆伊犁州:妥善做好滞留旅客安置返回工作
- 国庆假期广西累计接待游客逾3611万人次 实现旅游消费272.41亿元
- 2021年MAGIC3上海市青少年三对三超级篮球赛落幕
- 新疆兵团第四师可克达拉市1名无症状感染者为餐饮从业人员
- 哥伦比亚遇上广州:洋茶人“云上”喫茶 传播中国茶“味道”
- 厦门同安区四区域调整为低风险 全市无中高风险地区
- 直径2米“面气球”亮相 山西首届“寿阳味道”美食大赛启幕
- 世界第一埋深高速公路隧道大峡谷隧道出口端斜井掘进完成
- 浙南沿海村村发展有妙招 搭乘共富快车打造“海上花园”
- 新疆霍尔果斯两例无症状感染者新冠病毒均属德尔塔变异株
- 南沙港铁路国庆假期不停工 力争今年年底开通
- 添加陌生人为好友 内蒙古两女子被骗126万
- 中国国庆假期出行热:数字改变“关键小事”
- 水能载物亦能“生金” 浙江遂昌山村以水为媒奔共富
- 铁路人国庆雨中巡查排险记:一身雨衣、一把铁锹保安全畅通
- 铁路迎返程高峰 西安局集团公司加开79趟高铁列车
- 受热带低压影响 琼州海峡北岸等待过海车辆排长龙
- 哈尔滨市学校有序恢复线下教学
- 哈尔滨一地风险等级调整为低风险
- 从进“培训班”到看《长津湖》
- 安徽黄山国庆假期迎客12万余人 旅游市场稳步复苏
- 山西解除持续近90小时的暴雨四级应急响应
- 科学拦峰错峰削峰 嘉陵江洪水过境重庆中心城区“有惊无险”
- 粤高速大湾区路段假期车流集中 跨珠江口通道尤甚
- 千年街区“非遗”风催热国庆假期本地游
- “颜值担当”里的中国,映照“万物和谐”新气象
- 杭州“十一”假期后初中取消统一早读
X 关闭
资讯
- 海天瑞声李科分享技术赋能人工智能标注,高质量数据助推人工智能发展
- 【天天快播报】茂名“南香城”清表神速!将打造成高端居住小区,配建幼儿园
- 加勒比海盗的主题曲是什么 观察
- 3月24日山东港口焦炭市场价格小幅下调
- 凤凰传媒:3月23日融资买入1849.91万元,融资融券余额1.55亿元-当前视讯
- 田螺如何吐泥沙更快?_讯息
- 淘宝预售怎么设置怎么没有了_淘宝预售怎么设置
- 360主页背景皮肤设置_360皮肤怎么设置-环球热讯
- 太阳镜什么颜色好
- 环球热门:RNG力克RA,拿到季后赛门票!网友调侃:RA是怎么输掉比赛的?
- 广汽丰田又有大动作,五大新车齐上市,谁最有机会成爆款?
- 【独家】上瘾26集_上瘾20集
X 关闭