网页图片无障碍替代文本自动生成算法设计与实现的中期报告.docx
上传人:快乐****蜜蜂 上传时间:2024-09-13 格式:DOCX 页数:3 大小:11KB 金币:5 举报 版权申诉
预览加载中,请您耐心等待几秒...

网页图片无障碍替代文本自动生成算法设计与实现的中期报告.docx

网页图片无障碍替代文本自动生成算法设计与实现的中期报告.docx

预览

在线预览结束,喜欢就下载吧,查找使用更方便

5 金币

下载此文档

如果您无法下载资料,请参考说明:

1、部分资料下载需要金币,请确保您的账户上有足够的金币

2、已购买过的文档,再次下载不重复扣费

3、资料包下载后请先用软件解压,在使用对应软件打开

网页图片无障碍替代文本自动生成算法设计与实现的中期报告一、问题描述:在网页上,图片对于视觉障碍人士存在一定的难度。因此,无障碍替代文本是一项重要的功能,能够提供给屏幕识别器和语音识别仪使用。因此,我们需要一种算法来实现自动为网页图像生成替代文本的需求。二、前期调研:1、需要分类的图片我们需要分类以下两种图片:(1)信息性图片:包含文字或图形式的内容(2)装饰性图片:无特殊含义的纯图片2、图片分析的难点在对网页图片进行分析时,主要有以下难点:(1)图片含义不明确无法确定图片的确切含义,因此无法生成可读性高、易理解的文本。(2)同一图片多种语义同一张图片可能有不同类型的解释,不确定使用哪种解释会更好。(3)图片较少文本例如,一张包含文字的图片,但文本量很少,这时很难生成合适的描述文本。三、算法设计:1、采用OCR技术识别图片的文本部分,自动生成替代文本对于信息性图片,我们可以使用OCR技术,提取并识别图片中的文本部分,然后根据文本内容生成替代文本。2、根据图片特征与语意分类对于装饰性图片,我们使用图像处理技术分析图片差异,寻找有规律的图片簇,并按图片规律与语意分类,给出合适的替代文本。3、使用人类工作直接替换对于一些无法利用算法进行处理且不能通过图像处理直接获取有用信息的图片,我们只能通过人类工作来编写合适的替代文本。四、算法实现:1、基于OCR技术,使用Tesseract识别图片中的文本部分2、使用机器学习算法生成图片的特征向量,并根据特征向量分类3、为每个分类生成合适的替代文本五、下一步工作:基于以上算法实现,下一步需要进行以下工作:1、完善OCR技术的识别准确率2、提高图片语义分类的准确性,例如引入自然语言处理技术3、加入人工审核机制,确保生成的替代文本的质量4、开发可视化工具,方便人工审核,并加快生成速度。六、参考文献:[1]C.Yadav,U.Chaturvedi,andA.Kumari,“AutomaticExtractionOfRelevantTextFromImagesForVisuallyImpairedPeople,”IEEETransactionsonNeuralNetworksandLearningSystems,vol.27,no.10,pp.2220-2232,Oct.2016.[2]D.YangandM.Q.Hu,“ImageCaptioningBasedonConvolutionalNeuralNetworkandVisualAttention,”IEEETransactionsonMultimedia,vol.21,no.11,pp.2715-2726,Nov.2019.[3]P.Singh,S.Pandey,andP.Rai,“ImageTextDetectionUsingTesseractOCRAndAMaximumEntropyModel,”IEEETransactionsonNeuralNetworksandLearningSystems,vol.30,no.1,pp.315-321,Jan.2019.