AI图像生成如何挑战视觉中心主义并重塑社会空间

张

张建站

2026/5/13 14:02:00

10分钟阅读

1. 项目概述当AI开始“看见”并“创造”世界最近几年AI图像生成技术从实验室的奇观迅速演变为我们每个人触手可及的工具。从Midjourney、Stable Diffusion到DALL-E这些工具不再仅仅是“滤镜”或“特效”而是具备了从一段文字描述中凭空“想象”并“绘制”出一个全新视觉世界的能力。这听起来很酷但作为一名长期关注技术与文化交叉领域的从业者我看到的远不止是更精美的图片或更高效的作图流程。这项技术正在以一种静默但深刻的方式撼动一个我们习以为常、甚至从未质疑过的认知基石——视觉中心主义并由此开始重塑我们理解、构建和体验社会空间的方式。所谓视觉中心主义简单来说就是在人类认知和文明构建中视觉被赋予了至高无上的优先权。“眼见为实”是我们最根本的信任机制“展示”优于“讲述”城市规划追求天际线和鸟瞰图的壮丽社交媒体是精心策划的视觉展演甚至我们的知识体系也高度依赖图表、插图和影像来传递。视觉长久以来占据着认知的“C位”。但AI图像生成的出现就像往这潭深水中投入了一块巨石。它让我们意识到那个被我们“看见”的世界或许并非世界的全部而只是无数种可能的视觉化方案之一。AI不是照相机它是基于海量数据训练出的“概率雕塑家”它生成的每一幅图像都是对文本描述的一种统计学意义上的“视觉转译”。这个过程本身就在解构“视觉真实性”的神话。那么这场挑战将引向何方它如何重塑我们讨论公共议题、设计城市、进行教育乃至定义自我的“社会空间”这正是我想和大家深入探讨的。这不是一篇关于AI绘画技巧的教程而是一次关于技术哲学、媒介伦理和社会设计的跨界思考。无论你是设计师、研究者、教育工作者还是单纯对时代变革感到好奇的观察者希望接下来的内容能为你提供一个重新审视我们与图像、与世界关系的新透镜。2. 视觉中心主义的百年根基与AI的“釜底抽薪”要理解AI的挑战有多剧烈我们首先得看清它所挑战的对象有多么根深蒂固。2.1 “眼见为实”是如何成为文明默认设置的视觉的霸权地位并非天生。从思想史上看柏拉图著名的“洞穴寓言”就暗示了视觉可能带来的欺骗——囚徒们将墙上的影子当作真实。然而自文艺复兴以来透视法的发明让二维画面得以模拟三维空间科学观察依赖于视觉证据如望远镜、显微镜下的发现摄影术的诞生更是赋予了机械图像“客观记录”的光环。视觉逐渐与“真相”、“客观”、“理性”紧密绑定。在社会实践层面视觉中心主义体现得更为具体城市规划与建筑现代城市规划极度依赖视觉秩序。笔直的道路、对称的布局、标志性的天际线都是为了创造一种从特定视角通常是俯瞰或主入口观看的“完美画面”。建筑沦为“景观”人的生活体验让位于视觉的宏大叙事。媒体与广告我们生活在一个“景观社会”中。广告、电影、社交媒体源源不断地生产着欲望化的视觉形象定义着什么是美、什么是成功、什么是值得过的生活。视觉消费成为主要的消费形式之一。知识生产与教育教科书依赖插图科学依赖图表和数据可视化PPT成为学术汇报的标配。“一张好图胜过于言万语”的背后是知识必须被视觉化才能被有效传播和理解的预设。身份与社交个人头像、朋友圈九宫格、视频vlog……我们在数字世界中的存在很大程度上是由我们精心选择和修饰的视觉形象所定义的。这一切的底层逻辑在于视觉被认为是直接的、透明的、无需中介的。我们相信照片“记录”了现场图表“揭示”了真理城市风貌“代表”了文明程度。视觉成了我们认知世界最高效、最“可靠”的通道。2.2 AI图像生成的技术本质从“再现”到“运算”现在让我们看看AI图像生成技术是如何动摇这个根基的。以目前主流的扩散模型为例其工作原理与相机或画家的“观察-再现”逻辑截然不同。核心原理简述模型在训练时“观看”了数十亿张图像及其文本描述。它学习的不是“如何画一只猫”而是“与‘猫’这个文本标签相关联的像素在统计学上的分布规律”。生成时你输入“一只穿着宇航服的猫在月球上弹吉他”模型并非调用一张现成的猫或月球的图片进行拼接而是从一个纯粹的随机噪声开始通过复杂的多轮迭代计算逐步“去噪”使最终的像素排列符合它从海量数据中学到的、“宇航服猫”、“月球背景”、“弹吉他动作”等概念融合后的概率分布。这带来了几个革命性的转变真实性的来源变了图像的真实性不再锚定于一个物理存在的拍摄对象如相机前的猫而是锚定于模型参数和数据分布。AI生成的“新闻照片”可能细节完美、毫无PS痕迹但它描绘的事件从未发生。这直接冲击了“有图有真相”的古老信条。作者身份模糊了谁创作了这幅画是输入提示词的用户是开发模型的工程师还是用于训练的海量图像的匿名原作者们传统的“创作者-作品”关系被瓦解取而代之的是一个复杂的、分布式的主体网络。视觉的“中介”属性暴露无遗AI图像赤裸裸地展示了所有视觉呈现都是“中介化”的结果。相机是光学和化学的中介画家是技巧和风格的中介而AI是算法和数据的中介。它让我们无法再忽视“观看”背后那套复杂的筛选、编码和生成规则。注意这里常有一个误解认为AI只是高级的“拼贴工具”。实际上它在像素级别进行“无中生有”的合成其创作过程更接近基于概率的“幻化”或“显形”这与基于现有素材图层混合的拼贴有本质区别。AI并没有否定视觉但它迫使我们必须在一个新的层面上思考视觉当图像可以如此廉价、如此逼真地从文本中流淌出来时视觉作为“证据”的权威性何在作为“现实窗口”的透明性何在这正是对视觉中心主义的一次釜底抽薪式的挑战——它解构了视觉与真实之间那看似不言自明的直接联系。3. 重塑社会空间从视觉霸权到多感官、可参与的网络视觉中心主义的松动不仅仅关乎我们如何“看”图片更将深刻重塑我们共同生活的“社会空间”。社会空间不仅是物理场所更是由关系、实践、话语和媒介共同构成的动态网络。AI图像生成正在从以下几个层面重构这个网络。3.1 公共议题的讨论场从“景观展示”到“概念推演”传统的公共议题呈现高度依赖具有冲击力的视觉符号污染河流的照片、贫困儿童的大眼睛、整洁的城市宣传片。这些图像塑造了我们的共识但也简化了问题将复杂的系统性议题压缩为易于传播的悲情或赞歌场景。AI的介入可能改变这一游戏规则。设想一下这些场景政策模拟与可视化对于一项新的城市规划政策不同利益方市民、开发商、环保主义者不再仅仅争论效果图是否美观而是可以输入自己关注的文本描述如“高密度住宅但拥有充足社区花园的街区”、“以公共交通为导向的低碳商业区”快速生成多种非照片级、但概念清晰的视觉方案进行对比讨论。视觉在这里不再是“定稿的展示”而是“思维推演的工具”。历史与未来的多重叙事关于一段有争议的历史AI可以基于不同的文本描述来自不同立场、不同群体的史料记载和观点生成对应的视觉场景。这并非为了确定“哪个画面是真实的”而是为了视觉化地呈现“叙事是如何被建构的”从而促进对历史复杂性的理解而非对单一视觉定论的争夺。突破刻板印象的意象库在讨论性别、职业、文化等议题时我们可以主动使用AI生成大量突破传统刻板印象的图像如“温柔而强大的男性护士”、“在田间操作无人机的老年女性农民”用这些新的视觉语汇去冲击和丰富公共想象而非被动接受媒体中重复的陈旧意象。实操心得在利用AI进行公共议题可视化时关键不在于追求图像的“逼真”而在于提示词设计的“精准”和“多元”。应明确标注生成图像的“假设性前提”例如“此图像是基于XX政策框架下对理想社区形态的一种概念推演并非实际规划图”避免造成误解或替代现实决策。3.2 城市与建筑空间从“凝固的音乐”到“可对话的界面”现代主义建筑常被喻为“凝固的音乐”强调其作为视觉艺术品的永恒与完整。但AI生成技术结合AR、VR和数字孪生正推动空间向“可对话的界面”转变。参与式设计的前置在项目初期居民就可以通过自然语言描述“我想要一个夏天有荫凉、冬天能晒太阳孩子们可以安全玩耍老人们能坐着聊天的街角”与AI共同生成一系列概念草图。设计过程从专业者的“黑箱”变为社区共创的“白板”。视觉方案成为沟通的起点而非终点。动态适应与个性化叙事未来的建筑立面或公共屏幕或许可以根据实时数据天气、人流、社区事件或观众的个人偏好由AI生成并投射出不同的视觉形态或故事画面。城市空间不再是静态的背景板而成为能对环境和人群做出反应的“生命体”。非视觉空间体验的视觉化辅助对于视障人士AI可以将空间布局、材质纹理、氛围声音转化为独特的触觉图谱或声音景观描述再转译为一种为明眼人设计的、象征性的视觉图案促进不同感知能力者对同一空间的理解与共情设计。常见问题有人担忧这会导致城市风貌的混乱或“廉价感”。这里的核心在于AI是用于拓展可能性、辅助沟通的工具而非替代专业判断和深层人文思考的“自动设计机”。最终的决策与整合依然需要设计师、规划师和社区居民基于多维价值生态、社会、经济、文化进行审慎权衡。3.3 教育与知识传播从“图解结论”到“可视化思维过程”当前的教育视觉材料大多用于呈现“已知的结论”人体解剖图、历史事件绘画、物理原理示意图。AI使得“可视化思维过程”成为可能。复杂系统的动态演示学生可以输入“请展示全球变暖如何通过洋流影响极地冰盖融化”这样的过程描述AI生成一系列连贯的、可能带有比喻色彩的概念图。这比静态图表更能揭示动态关联和反馈回路。文学与抽象概念的意象探索在文学课上学生输入对一首诗的不同解读如“古诗《静夜思》中的‘月光’既是乡愁也是时间的流逝’生成对应的意象图。重点不是找到“正确”的插图而是看到文字如何能激发出多样化的、个人化的视觉联想深化对文本多义性的理解。错误概念的视觉化纠偏在科学教育中可以故意让AI生成基于常见错误概念如“地球季节变化是因为离太阳远近不同”的示意图然后与基于正确原理生成的图进行对比直观揭示错误所在。提示在教育应用中必须引导学生关注提示词与生成结果之间的关联批判性地审视AI图像中可能存在的训练数据偏见如将“科学家”默认生成为白人男性形象这本身就是一堂生动的媒介素养课。3.4 个体身份与表达从“形象管理”到“身份实验”在社交媒体时代个人形象成了一种精心管理的视觉资产。AI生成则提供了进行“身份实验”的低风险沙盒。超越自我外形的表达人们可以用AI生成完全不同于自己外貌的虚拟头像这些头像可能代表内心的某种情绪、一个理想化的自我、或者一个想要探索的角色。身份表达不再被物理外形严格限定。内心世界的视觉外化对于难以用文字描述的情感或心理状态如焦虑、狂喜、内心的矛盾可以通过隐喻性的提示词让AI生成意象复杂的图像成为一种新型的自我探索和艺术治疗工具。集体身份的共创小众文化社群、线上兴趣小组可以共同定义一组美学关键词用AI生成一套属于该社群的视觉标识系统从而强化群体认同感这种认同不再基于现实地域或血缘而是基于共享的审美和想象。注意事项这种自由也伴随着风险如深度伪造技术滥用带来的身份欺诈。因此在享受身份实验乐趣的同时必须同步发展数字身份认证技术和相关的伦理法律框架区分“创意表达”和“恶意冒充”的界限。4. 实操利用AI图像生成进行一场“去中心化”的视觉工作坊理论探讨之后我们来点实际的。如何将上述思考落地我设计了一个小型的、可操作的“视觉工作坊”流程你可以用它来在自己的团队、社区或课堂中主动运用AI去挑战单一视觉叙事探索空间重塑的可能。4.1 工作坊目标与前期准备目标选择一个具体的议题或空间如“我们理想中的社区公共广场”、“对‘家’的理解”通过集体使用AI图像生成工具打破参与者固有的视觉想象生成一组多元、甚至矛盾的概念图像并以此为基础展开深度讨论而非寻求一个“最佳设计”。工具准备AI图像生成平台选择1-2个易于上手、支持中文提示词的平台如Midjourney需科学上网注意合规使用国内替代品或强调概念设计、或国内可访问的、基于开源Stable Diffusion的在线工具如LiblibAI、吐司TusiArt等。重要提示所有活动必须在符合中国法律法规的网络环境下进行使用经批准的工具和服务。协同文档使用腾讯文档、飞书文档或金山文档等在线协作文档设立“提示词池”、“图像画廊”、“讨论区”。参与者5-10人为宜背景尽可能多元如居民、学生、设计师、社工等。4.2 核心环节分步解析第一步破冰与“视觉考古”30分钟活动请每位参与者快速在网络上或自己手机里找一张最能代表当前议题/空间的“典型图片”如搜索“社区广场”找到最常见的那个广场图片。讨论把这些“典型图片”并置。大家看到了什么共同点很可能都是对称的、有中心雕塑的、绿化整齐的、人群和谐的这些图像遗漏了什么可能是杂乱但充满生活气息的角落、儿童自发的游戏痕迹、夜晚独自停留的人、不方便人士的视角……目的让参与者直观感受到我们已有的视觉资源是多么的同质化以及这种同质化如何限制了我们的想象。这是挑战视觉中心主义的第一步——意识到它的存在。第二步提示词头脑风暴40分钟活动围绕议题抛开“要画得好看”的包袱从不同维度构思提示词。组织者可以引导一些方向感官维度“一个充满植物清香和孩童嬉笑声的广场”听觉、嗅觉。时间维度“凌晨四点空无一人的广场只有清洁工和早起的鸟儿”非高峰时段。人群维度“一个让坐轮椅的老人感到自在、能轻松与路人交谈的广场”特定群体视角。活动维度“适合举办临时跳蚤市场、街头辩论会或露天电影夜的广场”非常规活动。矛盾/隐喻维度“一个既拥挤又孤独的广场”、“一个像客厅一样温暖的户外广场”。操作将所有提示词录入协同文档的“提示词池”。第三步AI生成与“图像涌现”60分钟活动每位参与者从“提示词池”中选择2-3条最感兴趣的最好不是自己提的使用AI工具生成图像。鼓励对同一提示词进行多次生成或细微调整如改变风格水彩、线稿、科幻风、老旧照片感。操作将生成的所有图像上传至“图像画廊”并附上对应的提示词。第四步多元解读与空间叙事重构50分钟活动集体浏览“图像画廊”。组织者引导讨论哪张图像最让你意外为什么发现新的可能性不同的图像之间是否存在冲突这种冲突反映了我们对于这个空间哪些不同的价值诉求揭示内在矛盾如果将这些图像描绘的场景融合或叠加到同一个物理空间需要做出哪些设计上的改变会产生什么新问题从想象到实践有哪些重要的体验或需求是所有这些图像都未能表达出来的意识到视觉的局限产出不是一份统一的设计图而是一份“多元需求与可能性图谱”文档记录下被激发出的所有关键想法、价值冲突和未被满足的维度。4.3 避坑指南与经验分享提示词过于抽象像“幸福的广场”这样的词AI生成的结果往往流于俗套。要引导参与者描述具体的活动、氛围、感官细节、关系如“老人们聚在树下下棋围观者比下棋者还激动”。陷入技术迷恋参与者容易沉迷于调整参数、追求画面的艺术效果而偏离了讨论议题本身。组织者需不断将对话拉回“这张图告诉我们关于这个空间的什么”这一核心问题。AI偏见强化注意AI可能基于训练数据对某些提示词产生刻板输出如“领导者”总是生成西装中年男性。一旦发现应立即将其作为讨论点“看AI也学会了我们社会的偏见。我们该如何用提示词去纠正它”版权与伦理澄清工作坊开始时就必须说明所有生成图像仅供本次创意讨论使用不可直接用于商业项目或声称是原创设计。尊重开源模型协议并意识到图像中可能包含无法追溯的、来自训练数据的风格元素。这个工作坊的价值不在于产出了多少张“好看”的图而在于它将AI作为一面镜子、一个催化剂、一台辩论的发动机帮助我们跳出视觉定势让更多元的体验、更边缘的声音、更矛盾的需求有机会被“看见”并在对话中碰撞出对空间更丰富的理解。5. 未来展望走向“后视觉中心”的感知伦理AI图像生成技术的演进不会停止。随着多模态大模型的发展文本、图像、声音、3D模型之间的壁垒正在被打破。这意味着我们对空间的表达和感知将越来越不依赖于单一的视觉通道。未来的社会空间设计可能会呈现出以下特征多感官融合设计设计简报可能不再只是效果图和要求清单而是一段融合了空间叙事、声音氛围、触感描述甚至气味线索的“多模态提示词”。AI辅助工具据此生成的可不仅仅是视觉预览而是一个包含声景模拟、材质触感描述、动态光影变化的综合体验原型。可调节的感知界面同一个物理空间对于不同需求的人可以通过AR设备呈现完全不同的感知增强层。视障者获得增强的听觉导航提示焦虑症患者获得简化了视觉信息的宁静界面历史爱好者则看到叠加了历史图层的故事导览。空间成为一个“可编程的感知环境”。从“空间生产”到“关系编织”评价一个空间的好坏标准将从“是否上镜”转向“是否能催生多样化的、积极的人际互动和社区活动”。设计工具将更侧重于模拟和预测人在空间中的行为模式、社交网络的形成而视觉形态将是这些“关系流”自然涌现的结果而非预设的目标。当然这条道路并非坦途。它要求我们发展新的“感知素养”——能够批判性地解读AI生成的视觉信息理解其背后的数据逻辑与偏见也需要建立新的“共创伦理”——在利用AI拓展想象力的同时保障数据来源的合法性尊重文化多样性避免技术加剧新的不平等。AI图像生成技术与其说是一个强大的作图工具不如说是一把钥匙它意外地为我们打开了一扇门让我们得以审视那个被视觉主导了数百年的认知房间。它挑战我们是否敢于走出这个房间去探索一个声音、触觉、记忆和关系更为凸显的、更广阔的世界重塑社会空间本质上就是重塑我们感知彼此、连接彼此的方式。这个过程注定充满争论和试错但它的开启本身就意味着一种解放的可能。