爱盲论坛

标题: 电脑上也能使用chatGPT描述图片啦,还能识别软件里的开关设置,让操作软件更加无障... [打印本页]

作者: 落寞    时间: 2023-11-10 16:28
标题: 电脑上也能使用chatGPT描述图片啦,还能识别软件里的开关设置,让操作软件更加无障...
有录一个演示录音,大家可以直接播放收听。
官方交流群:554346279
[mp]http://www.lmdbk.com/aist.mp3[/mp]

前两天我们落寞工具箱的手机版添加上了AI智能图像描述,想必很多小伙伴都已经用上了。
这chatGPT描述图片可谓是非常厉害,描述的非常详细。
那今天,落寞工具箱电脑版,也加入了chatGPT图片识别,除了描述图片以外,还能识别软件窗口!
像我们会遇到一些无障碍很差的软件、网站等等,里面的一些设置项、开关、复选框的选中状态,是不朗读的,我们不知道到底是选中还是没选中。
但是视觉上,明眼人,是可以看出区别的,选没选中,要么是颜色有变化,要么旁边会多一个打钩的图标。
那这些视觉上的变化,AI就都能识别出来!
可以说是让我们又扫清了一部分障碍!
还有我们在电脑上看视频的时候,遇到了一个很感兴趣的画面,那也可以暂停视频,使用AI智能识别,让它给你详细的描述场景内容。
并且还可以追问,比如里面的人是什么表情?是什么样的姿势?穿着什么样的衣服等等。
当然,能做的仅不于此,这功能还只是刚刚上线,相信有更多用武之地,对我们盲人的帮助巨大!欢迎你加群交流讨论,软件也可在群共享里下载。
不过官方还有一些注意事项,也请仔细阅读:
虽然具有视觉功能的 GPT-4 功能强大,可用于多种情况,但了解该模型的局限性很重要。以下是我们注意到的一些限制:
医学图像:该模型不适合解释 CT 扫描等专业医学图像,不应用于医疗建议。
非英语:在处理包含非拉丁字母文本(如日语或韩语)的图像时,模型可能无法发挥最佳性能。
住:经过测试,现在识别中文效果不是很好,但英文、数字都是可以的,那如果只是要识别文字,还是用在线文字识别更加准确。
旋转:模型可能会误解旋转/颠倒的文本或图像。
视觉元素:模型可能难以理解颜色或样式(如实线、虚线或虚线)变化的图形或文本。
空间推理:该模型难以完成需要精确空间定位的任务,例如识别国际象棋位置。
准确性:在某些情况下,模型可能会生成不正确的描述或标题。
图像形状:该模型在处理全景和鱼眼图像时遇到困难。
元数据和调整大小:模型不处理原始文件名或元数据,并且在分析之前调整图像大小,从而影响其原始尺寸。
计数:可以给出图像中对象的近似计数。
验证码:出于安全原因,我们实施了一个系统来阻止提交验证码。

以下是软件详细介绍:
落寞工具箱-专为盲人打造的工具类软件,拥有聊天AIChatGPT、股票信息查询、拍照自动识别、自动朗读视频中文字幕、图形验证码识别、微软语音合成、语音转文本、音频转视频、pdf阅读、云剪贴板、图片合并缩放等众多功能!
有什么亮点?
1.内置全球最火爆的聊天AIChatGPT,发送消息,让它为你找软件、找错别字、取名字,甚至让它写小说,写代码!完全不同的聊天对话体验,让你体会到AI的强大!苹果手机还可直接将ChatGPT集成到Siri中,直接说话就能与ChatGPT互动!让语音助手瞬间人工智能!
2.股票信息查询,支持查询各大股市的历史行情,包括每天开盘价、收盘价、涨跌额、交易量等,最早能查询到股票刚上市!并且还有数据分析功能,让你了解股票价格走势!
3.安卓、苹果、windows,三大平台都集成离线文字识别,无需联网,快速响应!
4.屏幕自动识别(安卓、windows支持),开启后只要屏幕上显示的文字,瞬间识别朗读,典型场景,用来识别视频中文字幕,再也不怕看国外电影!除此之外浏览大量图片、某些直播软件公平不支持朗读等均可使用!可加群在群共享里收听如何朗读中文字幕的演示录音!
5.摄像头自动识别:不想一次次的点击拍照?打开自动识别,只需将摄像头对准要识别的文字,使用内置的离线文字识别,走到哪识别到哪!
6.识别位置提示:总是对不准文字,不知道文字在哪里?位置提示来帮你!每次识别玩后都会播报文字大概位置,例如左边、偏左等,根据提示将摄像头网相对应位置移动,配合自动识别,再也不怕对不准!如果使用在线文字识别,还可提示文字倾斜角度,例如向左倾斜180度,及代表文字颠倒,书本拿反,轻松得知物体的上下正反!
7.图像描述,拿到一个东西不知道是什么颜色?朋友圈里看到一张图片不知道拍的是什么?这时候就可以切换至图像描述,用一句话描述图片中的主要物体,并且基本都包含颜色信息,例如拍摄一只躺在地上的狗,可能就会告诉你,一只白色短毛狗躺在棕色地板上,让你对物体、颜色都有个大概了解!
8.图形验证码识别,无论安卓还是苹果,只要遇到图形验证码的界面,可直接截图,然后打开软件,使用验证码识别,只需选择验证码的大概区域,如上二分之一,及可轻松识别,准确率高达9成以上!从此苹果手机也可轻松识别图形验证码!
9.识别亮度,不知道家里是否开灯?使用亮度识别,将摄像头对准光源,即可得知亮与暗!
10.除此之外还有银行卡识别、身份证识别、植物识别、动物识别、钱币识别等接口共选择!特定场景准确度更高。
11.云笔记:可将重要文本内容保存至云端,安卓、苹果、windows三端同步查看,并且支持导入争渡云收藏,从此不怕重要信息丢失!
12.云剪贴板:云剪贴板可将当前设备的剪贴板数据同步至云端,不同于云笔记,云剪贴板的每次提交,都将覆盖之前的内容,方便在不同平台上频繁共享文本的场景。并且为了方便提交获取,无论任何平台,都有快捷方式可以一键提交,一键获取,可在个人中心点击帮助,收听多平台同步剪贴板数据的演示录音,从此多平台剪贴板同步轻松快捷!除此之外电脑版还拥有多剪贴板功能,可自动记录每次复制的文字,支持使用热键直接查看浏览,就仿佛多了无数块剪贴板,让你随心切换!
13.pdf阅读:无论是文字版还是扫描版pdf,直接选择使用落寞工具箱打开,文字版直接朗读,扫描版自动识别后朗读,给你带来阅读普通电子书的体验!并且支持直接导出成txt。
14.文本转语音:嫌听书机上的语音不好听?现在开始使用微软超逼真的TTS,将文本转换成语音,包括晓晓、云西等数十个发音人,温柔、深情、冷静等十几种风格,中文、英语、日语等多种语言,总有一款适合你!
15.语音转文本:有课堂、会议录音想转成文字,整理成笔记?看到了一步国外影片但苦于没有中文字幕?使用语音转文本,轻松将音视频中的语音转成可编辑的文本,操作专为视障用户设计,编辑查看简洁明了,还支持导出成txt、外挂字幕等。
16.音频转视频:可使用一张图片将音频转为视频,并且可直接发送到各类短视频平台。注:如果不提供图片,那转换出的将是纯黑视频。
17.图片合并,可将多张图片竖排或横排合并成一张图片,支持放大缩小、旋转等。
18.siri集成支持(仅限苹果),保存了一张图片后,可直接对siri说“识别最新照片”,及会掉起软件自动识别,方便快捷!
19.在QQ、微信等软件里收到的pdf、txt、音频都可选择直接用软件打开,pdf直接阅读、文本直接转语音、音频直接转文本,其次系统相册里的图片也支持用软件打开进行识别。
除此之外还有文本拆分、二维码生成与解析等小功能不断添加中!


作者: 童年.    时间: 2023-11-10 16:29
标题: 回复楼主落寞
支持
本帖来自微秘
作者: 小熊    时间: 2023-11-10 19:10
标题: 回复楼主落寞
付费吗?
本帖来自微秘
作者: 月亮雨    时间: 2023-11-10 19:32
标题: 回复板凳小熊
肯定是付费使用
本帖来自微秘




欢迎光临 爱盲论坛 (https://aimang.net/) Powered by Discuz! X3.2