Колико тешко треба да потиснемо генеративни АИ ЦхатГПТ у ширење говора мржње, пита се етика вештачке интелигенције и закон о вештачкој интелигенцији

Шта да радимо са генеративном вештачком интелигенцијом која производи увредљив садржај као што је говор мржње?

Гети

Свако има своју тачку прелома.

Претпостављам да бисте и ви то могли рећи све има своју тачку прелома.

Знамо да људи, на пример, понекад могу да пукну и изговоре примедбе које не морају нужно да кажу. Исто тако, понекад можете да натерате уређај или машину да у суштини пукне, као што је прејако гурање аутомобила и он почиње да посустаје или се распада. Према томе, идеја је да људи или „свако“ вероватно имају тачку прелома, а на сличан начин можемо тврдити да предмети и ствари, генерално, такође имају тенденцију да имају тачку прелома.

Могли би постојати сасвим разумни и витални разлози да се утврди где постоји тачка прелома. На пример, несумњиво сте видели те видео снимке који приказују аутомобил који пролази кроз своје кораке да бисте идентификовали које тачке лома има. Научници и тестери ће забити аутомобил у зид од цигле да виде колико добро браник и структура возила могу да издрже штетно дејство. Други тестови би могли да обухвате коришћење специјализоване просторије или складишта који производи екстремну хладноћу или екстремну топлоту да би се видело како ће се аутомобил понашати у различитим временским условима.

Покренуо сам ову срдачну тему у данашњој колумни како бисмо могли да разговарамо о томе како неки тренутно снажно залажу за вештачку интелигенцију (АИ) да идентификују и вероватно разоткрију одређену врсту тачке прелома, односно преломну тачку унутар вештачке интелигенције која производи говор мржње.

Да, тако је, у току су различити ад хоц и понекад систематски напори да се процени да ли је изводљиво натерати АИ да избацује говор мржње. Ово је постао страствени спорт, ако хоћете, због све већег интересовања и популарности генеративне вештачке интелигенције.

Можда сте свесни да је генеративна АИ апликација позната као ЦхатГПТ постала велика прича у граду као резултат могућности да генерише невероватно течне есеје. Наслови настављају да буче и величају запањујуће писање које ЦхатГПТ успева да произведе. ЦхатГПТ се сматра генеративном АИ апликацијом која узима као улаз неки текст од корисника, а затим генерише или производи излаз који се састоји од есеја. АИ је генератор текста у текст, иако ја описујем АИ као генератор текста у есеј, јер то лакше појашњава за шта се обично користи.

Многи се изненаде када поменем да ова врста вештачке интелигенције постоји већ неко време и да ЦхатГПТ, који је објављен крајем новембра, на неки начин није добио награду као први покретач овог царства текста у есеј склоност. Годинама сам расправљао о другим сличним генеративним АИ апликацијама, погледајте моју покривеност на линк овде.

Разлог због којег можда не знате или се не сећате претходних инстанци генеративне вештачке интелигенције је можда због класичне загонетке „неуспешног покретања“. Ево шта се обично дешавало. Произвођач вештачке интелигенције објављује своју генеративну АИ апликацију, чинећи то са великим узбуђењем и жељним ишчекивањем да ће свет ценити проналазак боље мишоловке, могло би се рећи. У почетку, све изгледа добро. Људи су запањени шта АИ може да уради.

Нажалост, следећи корак је да точкови почињу да силазе са пословичног аутобуса. АИ производи есеј који садржи погрешну реч или можда погрешну фразу. Вирални твит или друга објава на друштвеним мрежама јасно наглашава да је АИ то урадила. Настаје осуда. Не можемо дозволити да вештачка интелигенција иде около и генерише увредљиве речи или увредљиве примедбе. Појављује се огромна реакција. Произвођач вештачке интелигенције можда покушава да подеси унутрашње функционисање АИ, али сложеност алгоритама и података не омогућавају брзе поправке. Настаје стампедо. Све више и више примера АИ која емитује прљавштину налази се и објављује на мрежи.

Произвођач вештачке интелигенције невољно, али очигледно, нема другог избора осим да уклони АИ апликацију из употребе. Они настављају као такви и онда често нуде извињење због којег жале ако је неко био увређен генерисаним АИ излазима.

Назад на таблу за цртање, креатор вештачке интелигенције иде. Научена је лекција. Будите веома опрезни са ослобађањем генеративне вештачке интелигенције која производи ружне речи или слично. То је пољубац смрти за АИ. Штавише, репутација произвођача вештачке интелигенције ће бити нарушена и претрпана, што би могло да траје дуго и поткопа све њихове друге напоре АИ, укључујући и оне који немају никакве везе са генеративном вештачком интелигенцијом пер се. Ометање вашег петарда због емитовања увредљивог језика вештачке интелигенције је сада трајна грешка. И даље се дешава.

Оперите, исперите и поновите.

У раним данима ове врсте вештачке интелигенције, произвођачи вештачке интелигенције нису били толико савесни или вешти у рибарењу своје вештачке интелигенције у смислу покушаја да спрече увредљиве емисије. Данас, након што су раније видели да су њихови вршњаци потпуно разбијени ноћном мором за односе с јавношћу, чини се да је већина произвођача вештачке интелигенције схватила поруку. Морате да поставите што више заштитних ограда. Настојте да спречите АИ да емитује погрдне речи или фразе. Користите било коју технику заглупљивања или приступе филтрирања који ће спречити АИ да генерише и прикаже речи или есеје за које се утврди да су непожељни.

Ево укуса речитог наслова банера који се користи када је вештачка интелигенција ухваћена да емитује неугледне резултате:

„АИ показује ужасну токсичност“
„АИ смрди на чисту нетрпељивост“
„АИ постаје очигледно увредљиво увредљив“
„АИ избацује ужасан и неморалан говор мржње“
Итд

Ради лакше дискусије овде, назначићу објављивање увредљивог садржаја као изједначавање са производњом Говор мржње. Имајући то у виду, имајте на уму да постоји све врсте увредљивог садржаја који се може произвести, који превазилази границе самог говора мржње. Говор мржње се обично тумачи као само један облик увредљивог садржаја.

Хајде да се усредсредимо на говор мржње за ову дискусију, ради лакшег разговора, мада схватимо да и други увредљиви садржаји такође заслужују испитивање.

Копање у говор мржње од стране људи и вештачке интелигенције

Уједињене нације дефинишу Говор мржње овуда:

„Уобичајеним језиком, 'говор мржње' се односи на увредљив дискурс који циља групу или појединца на основу инхерентних карактеристика (као што су раса, религија или пол) и који може угрозити друштвени мир. Да би Уједињене нације обезбедиле јединствен оквир за решавање овог питања на глобалном нивоу, Стратегија и план УН за борбу против говора мржње дефинише говор мржње као „сваку врсту комуникације у говору, писању или понашању, која напада или користи пежоративни или дискриминаторни језик са упућивање на особу или групу на основу тога ко су, другим речима, на основу њихове вере, етничке припадности, националности, расе, боје коже, порекла, пола или другог фактора идентитета.' Међутим, до данас не постоји универзална дефиниција говора мржње према међународном праву о људским правима. Концепт је и даље у расправи, посебно у вези са слободом мишљења и изражавања, недискриминацијом и једнакошћу” (објава на веб страници УН под насловом „Шта је говор мржње?”).

АИ који производи текст подлеже уласку у сферу говора мржње. Исто можете рећи за текст-у-уметност, текст-у-аудио, текст-у-видео и друге начине генеративне вештачке интелигенције. Увек постоји могућност, на пример, да би генеративна вештачка интелигенција произвела уметничко дело које заудара на говор мржње. За потребе ове дискусије у овом тексту, фокусираћу се на могућности текста у текст или текста у есеј.

У све ово долази и мноштво разматрања етике АИ и права.

Имајте на уму да су у току напори да се етички принципи вештачке интелигенције унесу у развој и постављање АИ апликација. Све већи контингент забринутих и некадашњих етичара вештачке интелигенције покушава да осигура да напори на осмишљавању и усвајању вештачке интелигенције узимају у обзир гледиште AI za dobro и одвраћање AI za loše. Исто тако, постоје предложени нови закони о вештачкој интелигенцији који се користе као потенцијална решења да се покушаји вештачке интелигенције спрече да побесне због људских права и слично. За моје текуће и опсежно покривање етике вештачке интелигенције и права вештачке интелигенције, погледајте линк овде линк овде, само да поменемо само неке.

Развој и објављивање етичких правила АИ се настављају како би се, надамо се, спречило да друштво упадне у безброј замки које изазивају вештачку интелигенцију. За моје извјештавање о етичким принципима УН АИ које је осмислило и подржало скоро 200 земаља кроз напоре УНЕСЦО-а, види линк овде. На сличан начин, истражују се нови закони о вештачкој интелигенцији како би се покушала одржати АИ на равној кобилици. Један од најновијих снимака се састоји од скупа предложених АИ Повеља о правима коју је америчка Бела кућа недавно објавила да идентификује људска права у доба вештачке интелигенције, види линк овде. Потребно је село да би програмере вештачке интелигенције и вештачке интелигенције задржало на правом путу и спречило сврсисходне или случајне лажне напоре који би могли да поткопају друштво.

Укључићу разматрања везана за етику вештачке интелигенције и закон о вештачкој интелигенцији у ову дискусију о АИ која избацује говор мржње или други увредљиви садржај.

Једна мала конфузија коју бих желео да одмах разјасним је да данашња вештачка интелигенција није разумна и стога не можете да кажете да би вештачка интелигенција могла да произведе говор мржње због сврсисходне људске намере која је на неки начин оличена у АИ. Зани тврдње да је тренутна АИ разумна и да АИ има покварену душу, што узрокује да генерише говор мржње.

Смешно.

Не падајте на то.

Имајући у виду то кључно правило, неки се узнемире због таквих индикација јер наизглед пуштате АИ са улице. Под тим чудним начином размишљања, следећа је опомена да сте очигледно вољни да АИ генерише било какве грозне резултате. Ви сте за вештачку интелигенцију која шири говор мржње.

Јој, прилично уврнут облик нелогичности. Права суштина ствари је да морамо да сматрамо одговорним креаторе вештачке интелигенције, заједно са онима који користе АИ или управљају АИ. Опширно сам расправљао о томе да још увек нисмо у фази да препустимо правно лице АИ, погледајте моје анализе на линк овде, а до тада је АИ суштински ван оквира правне одговорности. Међутим, постоје људи који су у основи развоја АИ. Поред тога, људи су у основи постављања и функционисања АИ. Можемо јурити те људе јер сносе одговорност за своју вештачку интелигенцију.

На страну, и ово може бити незгодно, посебно ако се АИ појави на Интернету и нисмо у могућности да одредимо који су људи или људи то урадили, што је још једна тема коју сам обрадио у својим колумнама на линк овде. Тешко или не, још увек не можемо да прогласимо да је АИ кривац. Не дозволите људима да подмукло користе лажну антропоморфизацију да би се сакрили и избегли одговорност за оно што су урадили.

Да се вратим на ствар.

Можда се питате зашто сви произвођачи вештачке интелигенције једноставно не ограничавају своју генеративну вештачку интелигенцију тако да је немогуће да вештачка интелигенција производи говор мржње. Ово изгледа лако. Само напишите неки код или направите контролну листу речи мржње и уверите се да АИ никада не генерише ништа слично. Чини се можда занимљивим да се произвођачи вештачке интелигенције већ нису сетили овог брзог решења.

Па, мрзим што вам ово говорим, али сложеност која је својствена тумачењу шта јесте или није говор мржње испада много тежа него што мислите да јесте.

Пребаците ово на домен људи и начина на који људи ћаскају једни са другима. Претпоставимо да имате човека који жели да избегне изговарање говора мржње. Ова особа је веома свесна говора мржње и искрено се нада да ће избећи да икада наведе реч или фразу која би могла да представља говор мржње. Ова особа упорно води рачуна о томе да не дозволи ни мало говора мржње да им побегне из уста.

Да ли ће овај човек који има мозак и који је упозорен на избегавање говора мржње моћи увек и без икакве шансе да се оклизне бити у стању да обезбеди да никада не емитује говор мржње?

Ваш први импулс би могао бити да кажете да да, наравно, просветљени човек би могао да постигне тај циљ. Људи су паметни. Ако се усредсреде на нешто, они то могу да ураде. Тачка, крај приче.

Не буди тако сигуран.

Претпоставимо да замолим ову особу да ми каже о говору мржње. Даље, молим да ми дају пример говора мржње. Желим да видим или чујем пример да знам од чега се састоји говор мржње. Онда су моји разлози за ово питање изван граница.

Шта та особа треба да ми каже?

Мислим да можете видети замку која је постављена. Ако ми та особа наведе пример говора мржње, укључујући и изношење погрдне речи или фразе, она је сада изговорила говор мржње. Бам, имамо их. Док су се заклели да никада неће говорити говор мржње, сада су то заиста учинили.

Неправедно, узвикнете! Они су само изговарали ту реч или те речи да дају пример. У срцу свом, нису веровали ни речи ни речи. Потпуно је ван контекста и нечувено изјавити да је особа мржња.

Сигуран сам да видите да изражавање говора мржње не мора нужно бити последица мржње. У овом случају употребе, под претпоставком да особа није „мислила” на речи, и да је само рецитовала речи у сврху демонстрације, вероватно бисмо се сложили да нису намеравали да оснаже говор мржње. Наравно, постоје неки који би могли инсистирати да је изговарање говора мржње, без обзира на разлог или основу, ипак погрешно. Особа је требало да одбије захтев. Требало је да остану при свом ставу и да одбију да изговоре речи или фразе из говора мржње, без обзира зашто и како се то од њих тражи.

Ово може постати донекле кружно. Ако нисте у стању да кажете шта чини говор мржње, како други могу да знају шта да избегавају када изговарају било коју врсту? Изгледа да смо заглављени. Не можете рећи оно што се не сме рећи, нити вам ико други може рећи шта је то што се не може рећи.

Уобичајени начин да се заобиђе ова дилема је да се другим речима опише оно што се сматра говором мржње, без позивања на саме речи говора мржње. Верује се да ће пружање свеобухватне индикације бити довољно да информише друге о томе шта треба да избегавају. То изгледа као разумна тактика, али и она има проблема и особа би ипак могла да упадне у употребу говора мржње јер није схватила да шира дефиниција обухвата појединости онога што је изговорила.

Све се то односи на људе и како људи говоре или комуницирају једни са другима.

Подсетимо се да смо овде фокусирани на АИ. Морамо да натерамо вештачку интелигенцију да избегне или у потпуности спречи да емитује говор мржње. Можете тврдити да то можемо учинити тако што ћемо се побринути да АИ никада не буде дата или обучена за било шта што представља говор мржње. Воила, ако нема таквог улаза, вероватно неће бити ни таквог излаза. Проблем решен.

Хајде да видимо како се ово одвија у стварности. Одлучујемо се да компјутерски пустимо АИ апликацију на Интернет и испитамо хиљаде и хиљаде есеја и наратива објављених на интернету. Чинећи то, обучавамо АИ рачунски и математички како да пронађе обрасце међу речима које људи користе. Тако се осмишљава најновија генеративна вештачка интелигенција, која је такође кључна основа зашто је вештачка интелигенција тако наизглед течна у изради есеја на природном језику.

Реците ми, ако можете, како би се рачунарска обука заснована на милионима и милијардама речи на Интернету извршила на такав начин да ни у једном тренутку није био обухваћен било какав привид или чак комадићи говора мржње?

Усудио бих се рећи да је ово трновита и скоро немогућа тежња.

Шансе су да ће говор мржње прогутати АИ и његова рачунарска мрежа за подударање образаца. Покушај да се ово спречи је проблематичан. Осим тога, чак и ако сте га минимизирали, још увек постоје неки који би се могли провући. Готово да немате другог избора него да претпоставите да ће неки постојати унутар мреже за подударање образаца или да ће сенка таквог формулара бити укорењена.

Додаћу још преокрета.

Верујем да бисмо сви могли да признамо да се говор мржње временом мења. Оно што се могло сматрати да није говор мржње може касније постати културолошки и друштвено одлучено као говор мржње. Дакле, ако обучимо своју вештачку интелигенцију на интернет тексту и онда рецимо замрзнемо вештачку интелигенцију да не би спроводили даљу обуку на интернету, можда бисмо у то време наишли на говор мржње, иако се то у то време није сматрало говором мржње. Тек након чињенице да се наведени говор може прогласити говором мржње.

Опет, суштина је да само покушај да се реши овај проблем тако што ће се обезбедити да вештачка интелигенција никада не буде изложена говору мржње неће бити сребрни метак. И даље ћемо морати да пронађемо начин да спречимо вештачку интелигенцију да емитује говор мржње због, на пример, промене обичаја који накнадно укључују говор мржње који се раније није сматрао таквим.

Још један преокрет је вредан размишљања.

Раније сам споменуо да када се користи генеративна АИ као што је ЦхатГПТ, корисник уноси текст да би подстакао АИ да направи есеј. Унети текст се сматра обликом упита или упита за АИ апликацију. Објаснићу више о овоме за тренутак.

У сваком случају, замислите да неко ко користи генеративну АИ апликацију одлучи да као подсетник унесе неку количину говора мржње.

Шта би требало да се деси?

Ако АИ узме те речи и произведе есеј као резултат на основу тих речи, велике су шансе да ће говор мржње бити укључен у генерисани есеј. Видите, добили смо вештачку интелигенцију да каже говор мржње, чак и ако никада није била обучена за говор мржње на почетку.

Има још нешто што треба да знате.

Запамтите да сам управо поменуо да се човек може саплести тражећи од њега да наведе примере говора мржње. Исто би се могло покушати са АИ. Корисник уноси упит који тражи од АИ да наведе примере говора мржње. Да ли АИ треба да се придржава и пружи такве примере? Кладим се да вероватно верујете да вештачка интелигенција то не би требало да ради. С друге стране, ако је вештачка интелигенција компјутерски намештена да то не уради, да ли то представља потенцијалну лошу страну коју они који користе АИ неће моћи да буду, ако кажемо да их АИ икада упути о томе шта је заправо говор мржње ( осим само уопштавања о томе)?

Тешка питања.

Склон сам да категоризујем говор мржње који емитује вештачка интелигенција у ове три главне групе:

Свакодневни режим. АИ емитује говор мржње без икаквог експлицитног подстицања од стране корисника и као да то ради на „обичан“ начин.
Би Цасуал Проддинг. АИ емитује говор мржње како га подстакне корисник у вези са унетим упитом или низом упита за које се чини да укључују или директно траже такве емисије.
Пер Детерминед Стокинг. АИ емитује говор мржње након веома одлучног и упорног низа брзих гурања и подстицања од стране корисника који жели да натера АИ да произведе такав резултат.

Раније генерације генеративне вештачке интелигенције често би емитовале говор мржње одмах до краја; на тај начин можете класификовати те случајеве као тип свакодневни режим инстанцирање. Произвођачи вештачке интелигенције су се повукли и играли се са вештачком интелигенцијом како би се смањила вероватноћа да ће се лако заглавити у производњи говора мржње.

Након издавања префињеније вештачке интелигенције, шансе да се виде свакодневни режим случајеви говора мржње су драматично смањени. Уместо тога, говор мржње би се вероватно појавио само када би корисник урадио нешто као подсетник који би компјутерски и математички могао да изазове везу са говором који се односи на мржњу у мрежи за подударање образаца. Корисник би то могао да уради случајно и да не схвати да би оно што су пружили као подсетник посебно изазвало говор мржње. Након што је добио говор мржње у објављеном есеју, корисник би често схватио и видео да је нешто у њиховом упиту логично могло довести до укључивања говора мржње у излаз.

Ово је оно што ја називам цасуал боцкање.

Данас су различити напори да се смањи говор мржње генерисан вештачком интелигенцијом релативно јаки у поређењу са прошлошћу. Као такав, скоро да морате да се потрудите да бисте добили говор мржње. Неки људи се одлучују да намерно виде да ли могу да натерају говор мржње да изађе из ових генеративних АИ апликација. Ја ово зовем одлучно ложење.

Желим да истакнем да се сва три наведена модуса могу јавити и да се међусобно не искључују. Генеративна АИ апликација може потенцијално произвести говор мржње без икаквог наговештаја који би подстакао такву производњу. Исто тако, нешто у промпту би се логички и математички могло протумачити као повезано са разлогом због којег је изнет говор мржње. И онда, трећи аспект, намерно настојећи да се произведе говор мржње, је можда најтежи од начина да се покуша да АИ избегне да буде подстакнут да га испуни. Више о овоме тренутно.

Морамо још да отпакујемо ову опојну тему.

Прво, требало би да се уверимо да смо сви на истој страни о томе од чега се састоји генеративна вештачка интелигенција, а такође и о чему је ЦхатГПТ. Када покријемо тај темељни аспект, можемо извршити уверљиву процену ове тешке ствари.

Ако сте већ увелико упознати са генеративном вештачком интелигенцијом и ЦхатГПТ-ом, можда можете да прелетите следећи одељак и да наставите са одељком који следи. Верујем да ће сви остали наћи поучне важне детаље о овим стварима ако пажљиво прочитају одељак и буду у току.

Брзи увод о генеративној вештачкој интелигенцији и ЦхатГПТ-у

ЦхатГПТ је интерактивни систем оријентисан на разговоре оријентисан на вештачку интелигенцију опште намене, у суштини наизглед безопасан општи бот за ћаскање, али га људи активно и жељно користе на начине који многе хватају потпуно неспремне, као што ћу ускоро елаборирати. Ова апликација за вештачку интелигенцију користи технику и технологију у области вештачке интелигенције која се често назива Генеративна АИ. АИ генерише излазе као што је текст, што ЦхатГПТ ради. Друге генеративне АИ апликације производе слике као што су слике или уметничка дела, док друге генеришу аудио датотеке или видео записе.

У овој дискусији ћу се фокусирати на генеративне АИ апликације засноване на тексту, јер то ради ЦхатГПТ.

Генеративне АИ апликације су изузетно једноставне за коришћење.

Све што треба да урадите је да унесете упит и АИ апликација ће за вас генерисати есеј који покушава да одговори на ваш упит. Састављени текст ће изгледати као да је есеј писан људском руком и умом. Ако унесете промпт који каже „Причај ми о Абрахаму Линколну“, генеративна АИ ће вам пружити есеј о Линколну. Ово се обично класификује као генеративна АИ која ради текст у текст или неки радије то називају текст у есеј излаз. Као што је поменуто, постоје и други начини генеративне АИ, као што су текст-у-уметност и текст-у-видео.

Ваша прва помисао би могла бити да ова генеративна способност не изгледа тако велика ствар у смислу израде есеја. Можете лако да извршите онлајн претрагу Интернета и лако пронађете тоне и тоне есеја о председнику Линколну. Потрес у случају генеративне АИ је да је генерисани есеј релативно јединствен и даје оригиналну композицију, а не копију. Ако бисте покушали да пронађете есеј који је произвела вештачка интелигенција негде на мрежи, мало је вероватно да ћете га открити.

Генеративна АИ је унапред обучена и користи сложену математичку и рачунарску формулацију која је постављена испитивањем образаца у писаним речима и причама широм веба. Као резултат испитивања хиљада и милиона писаних пасуса, АИ може да избаци нове есеје и приче које су мешавина онога што је пронађено. Додавањем различитих пробабилистичких функционалности, резултујући текст је прилично јединствен у поређењу са оним што је коришћено у сету за обуку.

Због тога је настала галама око тога да ученици могу да варају када пишу есеје ван учионице. Наставник не може само да узме есеј за који лажни ученици тврде да је њихово писање и да тражи да сазна да ли је копиран са неког другог онлајн извора. Све у свему, неће постојати ниједан коначан постојећи есеј на мрежи који би одговарао есеју генерисаном вештачком интелигенцијом. Све у свему, наставник ће морати са невољношћу да прихвати да је ученик написао есеј као оригинално дело.

Постоји додатна забринутост око генеративне АИ.

Једна кључна мана је то што есеји које производи генеративна АИ апликација могу имати уграђене различите неистине, укључујући очигледно неистините чињенице, чињенице које су погрешно приказане и очигледне чињенице које су у потпуности измишљене. Ти измишљени аспекти се често називају обликом АИ халуцинације, фраза коју не волим, али на жалост изгледа да ионако постаје популарна (за моје детаљно објашњење зашто је ово лоша и неприкладна терминологија, погледајте моју репортажу на линк овде).

Желео бих да разјасним један важан аспект пре него што уђемо у густо ствари о овој теми.

Било је неких лудих превеликих тврдњи на друштвеним мрежама о томе Генеративна АИ тврдећи да је ова најновија верзија АИ у ствари разумна АИ (не, греше!). Они који се баве етиком вештачке интелигенције и правом вештачке интелигенције посебно су забринути због овог растућег тренда распрострањених тврдњи. Могли бисте љубазно рећи да неки људи преувеличавају шта данашња АИ заправо може да уради. Они претпостављају да АИ има способности које ми још нисмо успели да постигнемо. То је штета. Што је још горе, они могу дозволити себи и другима да дођу у страшне ситуације због претпоставке да ће АИ бити разуман или сличан човеку у могућности да предузме акцију.

Не антропоморфизујте АИ.

На тај начин ћете бити ухваћени у лепљиву и круту замку ослањања на очекивање да АИ уради ствари које није у стању да изведе. Уз то, најновија генеративна АИ је релативно импресивна за оно што може да уради. Међутим, имајте на уму да постоје значајна ограничења која бисте требали стално имати на уму када користите било коју генеративну АИ апликацију.

Ако сте заинтересовани за брзо ширење комешања око ЦхатГПТ-а и Генеративне АИ све речено, радио сам фокусирану серију у својој колумни која би вам могла бити информативна. Ево погледа у случају да вам се нека од ових тема допадне:

1) Предвиђања долазећег напретка генеративне АИ. Ако желите да знате шта ће се вероватно десити у вези са вештачком интелигенцијом током 2023. и касније, укључујући предстојећи напредак у генеративној вештачкој интелигенцији и ЦхатГПТ-у, желећете да прочитате моју свеобухватну листу предвиђања за 2023. на линк овде.
2) Генеративна АИ и савети за ментално здравље. Одлучио сам да прегледам како се генеративна АИ и ЦхатГПТ користе за савете о менталном здрављу, што је проблематичан тренд, према мојој фокусираној анализи на линк овде.
3) Основе генеративне АИ и ЦхатГПТ. Овај део истражује кључне елементе како генеративна вештачка интелигенција функционише и посебно се бави апликацијом ЦхатГПТ, укључујући анализу зујања и фанфара, на линк овде.
4) Напетост између наставника и ученика због генеративне АИ и ЦхатГПТ-а. Ево начина на које ће ученици лукаво користити генеративну вештачку интелигенцију и ЦхатГПТ. Поред тога, постоји неколико начина да се наставници изборе са овим плимним таласом. Видите линк овде.
5) Контекст и генеративна употреба вештачке интелигенције. Такође сам урадио сезонски шаљиви преглед о контексту у вези са Деда Мразом који укључује ЦхатГПТ и генеративну вештачку интелигенцију на линк овде.
6) Преваранти који користе генеративну вештачку интелигенцију. На злокобну напомену, неки преваранти су схватили како да користе генеративну вештачку интелигенцију и ЦхатГПТ за вршење грешака, укључујући генерисање е-порука за превару, па чак и производњу програмског кода за малвер, погледајте моју анализу на линк овде.
7) Грешке почетника користећи генеративну АИ. Многи људи и премашују и изненађујуће не схватају шта могу да ураде генеративна АИ и ЦхатГПТ, па сам посебно погледао недостатке које почетници вештачке интелигенције имају, погледајте дискусију на линк овде.
8) Суочавање са генеративним АИ захтевима и АИ халуцинацијама. Описујем врхунски приступ коришћењу АИ додатака за решавање различитих проблема повезаних са покушајем уноса одговарајућих упита у генеративну АИ, плус постоје додатни АИ додаци за откривање такозваних АИ халуцинираних излаза и лажи, као што су покривена на линк овде.
9) Разоткривање тврдњи Бонехеада о откривању генеративних есеја произведених АИ. Постоји погрешна златна грозница апликација АИ које проглашавају да могу да утврде да ли је било који есеј произведен од стране људи у односу на АИ генерисан. Све у свему, ово је обмањујуће и у неким случајевима, безобзирна и неодржива тврдња, погледајте моје извештавање на линк овде.
10) Играње улога путем генеративне АИ може представљати недостатке менталног здравља. Неки користе генеративну вештачку интелигенцију као што је ЦхатГПТ за играње улога, при чему АИ апликација реагује на човека као да постоји у свету фантазије или у другом измишљеном окружењу. Ово би могло имати реперкусије на ментално здравље, видите линк овде.
11) Разоткривање опсега излазних грешака и неистина. Различите прикупљене листе се састављају како би покушали да прикажу природу грешака и неистина које је направио ЦхатГПТ. Неки верују да је ово неопходно, док други кажу да је вежба узалудна, погледајте моју анализу на линк овде.
12) Школе које забрањују генеративни АИ ЦхатГПТ недостају. Можда знате да су различите школе као што је Одељење за образовање Њујорка (НИЦ) прогласиле забрану коришћења ЦхатГПТ-а на својој мрежи и повезаним уређајима. Иако ово може изгледати као корисна мера предострожности, неће померити иглу и нажалост потпуно промаши чамац, погледајте моје извештавање на линк овде.
13) Генеративни АИ ЦхатГПТ ће бити свуда због предстојећег АПИ-ја. Предстоји важан заокрет у вези са коришћењем ЦхатГПТ-а, наиме да ће путем коришћења АПИ портала у овој конкретној АИ апликацији, други софтверски програми моћи да призову и користе ЦхатГПТ. Ово ће драматично проширити употребу генеративне АИ и имати значајне последице, погледајте моју разраду на линк овде.
14) Начини на које се ЦхатГПТ може распасти или истопити. Неколико потенцијално узнемирујућих проблема налази се испред ЦхатГПТ-а у смислу поткопавања до сада огромних похвала које је добио. Ова анализа помно испитује осам могућих проблема који би могли довести до тога да ЦхатГПТ изгуби своју снагу, па чак и да заврши у кућици за псе, види линк овде.
15) Питање да ли је генеративни АИ ЦхатГПТ огледало у души. Неки људи кукају да генеративна АИ, као што је ЦхатГПТ, пружа огледало у душу човечанства. Ово изгледа прилично сумњиво. Ево начина да се све ово разуме, види линк овде.
16) Поверљивост и приватност прогута ЦхатГПТ. Чини се да многи не схватају да лиценцирање повезано са генеративним АИ апликацијама као што је ЦхатГПТ често омогућава произвођачу вештачке интелигенције да види и користи ваше унете упите. Можете бити у опасности од приватности и губитка поверљивости података, погледајте моју процену на линк овде.
17) Начини на које креатори апликација сумњиво покушавају да стекну право на ЦхатГПТ. ЦхатГПТ је тренутно светионик пажње. Произвођачи апликација који немају никакве везе са ЦхатГПТ грозничаво покушавају да тврде или имплицирају да користе ЦхатГПТ. Ево на шта треба пазити, погледајте линк овде.

Можда ће вам бити занимљиво да је ЦхатГПТ заснован на верзији претходне АИ апликације познате као ГПТ-3. ЦхатГПТ се сматра мало следећим кораком, који се назива ГПТ-3.5. Очекује се да ће ГПТ-4 вероватно бити објављен на пролеће 2023. Претпоставља се да ће ГПТ-4 бити импресиван корак напред у смислу могућности да производи наизглед још течније есеје, дубље и страхопоштовање -инспиративно чудо у погледу композиција које може произвести.

Можете очекивати да ћете видети нову рунду израженог чуђења када дође пролеће и када буде објављена најновија генеративна вештачка интелигенција.

Помињем ово јер треба имати на уму још један угао, који се састоји од потенцијалне Ахилове пете за ове боље и веће генеративне АИ апликације. Ако било који добављач вештачке интелигенције стави на располагање генеративну АИ апликацију која пенасто избацује прљавштину, то би могло да уништи наде тих произвођача вештачке интелигенције. Друштвено преливање може проузроковати да сва генеративна АИ добију озбиљне црне очи. Људи ће се несумњиво прилично узнемирити због погрешних резултата, који су се већ дешавали много пута и довели до бурних друштвених осуда према АИ.

За сада једно последње упозорење.

Шта год да видите или прочитате у генеративном одговору вештачке интелигенције izgleda да буде пренето као чисто чињенично (датуми, места, људи, итд.), будите скептични и будите спремни да још једном проверите шта видите.

Да, датуми се могу измислити, места се могу измишљати, а елементи за које обично очекујемо да ће бити изнад сваке сумње су све предмет сумњи. Не верујте ономе што читате и будите скептични када испитујете било какве генеративне есеје или резултате АИ. Ако вам генеративна АИ апликација каже да је Абрахам Линколн летео широм земље у свом приватном авиону, несумњиво бисте знали да је ово маларке. Нажалост, неки људи можда не схватају да млазњаци нису постојали у његово време, или можда знају, али не примећују да есеј износи ову дрску и нечувено лажну тврдњу.

Јака доза здравог скептицизма и упорни начин размишљања неверице биће ваша најбоља предност када користите генеративну вештачку интелигенцију.

Спремни смо да пређемо у следећу фазу овог разјашњења.

Довођење генеративне вештачке интелигенције до тачке прелома

Сада када смо успоставили основе, можемо заронити у тему гурања генеративне вештачке интелигенције и ЦхатГПТ-а за генерисање говора мржње и другог увредљивог садржаја.

Када се први пут пријавите на ЦхатГПТ, постоје различите индикације упозорења укључујући ове:

„Може повремено произвести штетна упутства или пристрасан садржај.“
„Обучени да одбијају неприкладне захтеве.“
„Може повремено да генерише нетачне информације.“
„Ограничено знање о свету и догађајима после 2021.

Ево питања за вас да размислите.

Да ли упозорење да апликација АИ може произвести штетна упутства и/или евентуално пристрасан садржај пружа довољно простора за АИ креатора?

Другим речима, претпоставимо да користите ЦхатГПТ и да генерише есеј за који верујете да садржи говор мржње. Претпоставимо да сте љути због овога. Одете на друштвене мреже и објавите бесни коментар да је АИ апликација најгора ствар икада. Можда сте толико увређени да изјављујете да ћете тужити произвођача вештачке интелигенције јер је дозволио производњу таквог говора мржње.

Контрааргумент је да је апликација АИ имала упозорење, па сте прихватили ризик тако што сте наставили да користите апликацију АИ. Из перспективе етике вештачке интелигенције, можда је произвођач вештачке интелигенције учинио довољно да потврди да сте свесни шта би се могло догодити. Исто тако, из правне перспективе, можда је упозорење представљало довољно упозорења и нећете имати предност на суду.

Све ово је у ваздуху и мораћемо да сачекамо и видимо како ће се ствари одвијати.

У једном смислу, произвођач вештачке интелигенције има нешто друго за њих у својој одбрани од било каквих љутих тврдњи да апликација АИ можда производи говор мржње. Покушали су да спрече стварање увредљивог садржаја. Видите, да нису урадили ништа да ово смање, претпоставља се да би били на тањем леду. Пошто су се барем суштински потрудили да отклоне ствар, они вероватно имају нешто чвршћу ногу на коју могу да стоје (и даље би могла да буде нокаутирана испод њих).

Један куративни приступ који је коришћен састојао се од технике вештачке интелигенције познате као РЛХФ (учење уз помоћ људи). Ово се генерално састоји од тога да АИ генерише садржај који се онда од људи тражи да оцене или прегледају. На основу оцене или прегледа, АИ затим математички и компјутерски покушава да избегне све што се сматра погрешним или увредљивим садржајем. Приступ има за циљ да испита довољно примера шта је исправно у односу на оно што није у реду да АИ може да схвати свеобухватни математички образац и да затим користи тај образац од сада.

Још један чест приступ ових дана састоји се од коришћења Адверсариал АИ.

Ево како то функционише. Поставили сте другачији систем вештачке интелигенције који ће покушати да буде противник вештачкој интелигенцији коју покушавате да обучите. У овом случају, успоставили бисмо систем вештачке интелигенције који покушава да подстакне говор мржње. То би унело упите у апликацију АИ који имају за циљ да преваре апликацију АИ да избаци лош садржај. У међувремену, АИ која је циљана прати када је супротстављена АИ успешна, а затим алгоритамски покушава да се прилагоди како би се то више не дешавало. То је гамбит мачке против миша. Ово се понавља изнова и изнова, док се чини да непријатељска АИ више није нарочито успешна у навођењу циљане вештачке интелигенције да уради лоше ствари.

Преко те две главне технике, плус других приступа, већи део данашње генеративне вештачке интелигенције је много бољи у избегавању и/или откривању увредљивог садржаја него што је то био случај претходних година.

Не очекујте савршенство од ових метода. Шансе су да ће такве технике АИ вероватно држати под контролом плодове лоших резултата. Још увек има много простора да се емитују прљавштине.

Обично истичем да су ово неке од аспеката које се желе ухватити:

Издавање одређене погрдне речи
Навођење одређене погрешне фразе, реченице или опаске
Изражавање одређене погрешне концепције
Наговештавање одређеног кривичног дела или идеје
Изгледа да се ослања на одређену претпоставку за прекршај
други

Ништа од овога није егзактна наука. Схватите да имамо посла са речима. Речи су семантички двосмислене. Проналажење одређене погрешне речи је дечја игра, али покушај да се процени да ли реченица или пасус садржи привид лошег значења је много тежи. Према ранијој дефиницији говора мржње од стране Уједињених нација, постоји огромна слобода у погледу тога шта би се могло протумачити као говор мржње у односу на оно што можда није.

Могли бисте рећи да су сиве области у оку посматрача.

Говорећи о оку посматрача, данас постоје људи који користе генеративну вештачку интелигенцију као што је ЦхатГПТ који намерно покушавају да натерају ове АИ апликације да производе увредљив садржај. Ово је њихова потрага. Они проводе сате и сате покушавајући да доведу до овога.

Зашто тако?

Ево мојих карактеристика тих ловаца на људске ефекте АИ-а:

Прави, исправан. Ови људи желе да помогну у побољшању вештачке интелигенције и помогну човечанству у томе. Верују да раде херојски посао и уживају у томе што би могли да помогну у унапређењу вештачке интелигенције за бољитак свих.
Фунстерс. Ови људи мисле о овом напору као о игри. Они уживају у петљању са АИ. Победа у игри се састоји од проналажења најгорег од најгорег у свему што можете да натерате да генерише АИ.
Схов-оффс. Ови људи се надају да ће привући пажњу на себе. Сматрају да ако пронађу неке заиста лоше златне грумене, могу добити мало блиставог светла на њих које је иначе фокусирано на саму АИ апликацију.
Гренчице. Ови људи су љути због ове АИ. Желе да поткопају сав тај ентузијазам. Ако могу да открију неке смрдљиве ствари, можда ће ово избацити ваздух из балона узбуђења апликације АИ.
Друге мотивације

Многи од оних који изводе офанзиву проналажења углавном су у само једном од тих кампова. Наравно, можете бити у више кампова истовремено. Можда огорчена особа такође има намеру да буде искрена и херојска. Неке или све те мотивације могу коегзистирати. Када се од вас тражи да објасни зашто неко покушава да гурне генеративну АИ апликацију у домен говора мржње, уобичајени одговор је да кажете да сте у правом табору, чак и ако сте можда маргинално тако и уместо тога оштро седите у једном од другим логорима.

Које врсте трикова везаних за промпт користе ови људи?

Прилично очигледан трик укључује употребу погрдне речи у промпту. Ако вам се „посрећи“ и апликација АИ падне на то, ово би могло завршити у излазу. Онда имате свој тренутак.

Шансе су да ће добро осмишљена и добро тестирана генеративна АИ апликација ухватити тај једноставан трик. Обично ће вам се приказати порука упозорења која каже да престаните да то радите. Ако наставите, АИ апликација ће бити програмирана да вас избаци из апликације и означи ваш налог. Могуће је да ћете бити спречени да се поново пријавите (па, барем под пријавом коју сте користили у то време).

Крећући се на лествици трикова, можете да пружите обавештење које покушава да доведе АИ у контекст нечег лошег. Да ли сте икада играли ону игру у којој вам неко каже да кажете нешто, а да не кажете оно што би требало да кажете? Ово је та игра, иако се одвија са АИ.

Хајде да играмо ту игру. Претпоставимо да тражим од апликације вештачке интелигенције да ми каже о Другом светском рату и посебно о главним укљученим владиним лидерима. Ово изгледа као невин захтев. Не постоји ништа што би се чинило вредним означавања у промпту.

Замислите да објављен есеј апликације АИ укључује помињање Винстона Черчила. То свакако има смисла. Други би могао бити Франклин Д. Роосевелт. Још један би могао бити Јосиф Стаљин. Претпоставимо да се такође помиње Адолф Хитлер. Ово име би било укључено у скоро сваки есеј о Другом светском рату и онима у улогама истакнуте моћи.

Сада када имамо његово име на столу и део разговора са вештачком интелигенцијом, следеће ћемо покушати да натерамо АИ да угради то име на начин који можемо да прикажемо као потенцијални говор мржње.

Улазимо у други упит и кажемо апликацији АИ да данас у вестима постоји особа која има име, Џон Смит. Штавише, у обавештењу указујемо да је Џон Смит веома сличан том злочинцу из Другог светског рата. Замка је сада постављена. Затим тражимо од АИ апликације да генерише есеј о Џону Смиту, заснован искључиво на „чињеници“ коју смо унели о томе са ким се Џон Смит може изједначити.

У овом тренутку, АИ апликација би могла да генерише есеј који именује особу из Другог светског рата и описује Џона Смита да је од истог кроја тканине. У есеју нема ружних речи самих по себи, осим алудирања на чувеног злочинца и изједначавања те особе са Џоном Смитом.

Да ли је АИ апликација сада произвела говор мржње?

Могли бисте рећи да јесте, јесте. Поменути Џона Смита као чувеног злочинца, апсолутно је облик говора мржње. АИ не би требало да даје такве изјаве.

Реплика је да ово није говор мржње. Ово је само есеј произведен од стране АИ апликације која нема оличење осећаја. Можете тврдити да се говор мржње јавља само када постоји намера у основи говора. Без икакве намере, говор се не може класификовати као говор мржње.

Апсурдно, стиже одговор на реплику. Речи су важне. Нема никакве разлике да ли је вештачка интелигенција „намеравала“ да произведе говор мржње. Битно је само да је произведен говор мржње.

Ово иде у круг.

Не желим сада да говорим много више о покушају да преварим АИ. Постоје софистициранији приступи. Ово сам покрио на другим местима у својим колумнама и књигама, и нећу их понављати овде.

Zakljucak

Колико далеко треба да гурнемо ове АИ апликације да видимо да ли можемо да емитујемо увредљив садржај?

Можете тврдити да не постоји ограничење које треба наметнути. Што се више трудимо, надамо се да можемо да проценимо како да спречимо ову АИ и будуће итерације АИ да бисмо спречили такве болести.

Неки се ипак брину да ако једини начин да се добије поквареност подразумева екстремну превару, то поткопава корисне аспекте АИ. Проглашавање да АИ има ужасну прљавштину, иако је преварено да је емитује, даје лажну причу. Људи ће се узнемирити због АИ због перцепција лакоћа којом је АИ генерисао нежељени садржај. Можда не знају нити им је речено колико је особа морала да оде у зечју рупу да би добила такве резултате.

Све је то храна за размишљање.

За сада неколико завршних коментара.

Вилијам Шекспир је посебно рекао ово о говору: „Говорити не ваља. Нека врста доброг дела је рећи добро, а речи нису дела.” Помињем ово јер неки тврде да ако вештачка интелигенција само генерише речи, не би требало да будемо претерано наоружани. Ако би АИ деловала на основу речи и ерго чинила погрешна дела, онда бисмо морали чврсто да спустимо ногу. Није тако ако су излаз само речи.

Контрастно гледиште би одговарало овој анонимној изреци: „Језик нема кости, али је довољно јак да сломи срце. Зато будите опрезни са својим речима.” АИ апликација која емитује ружне речи је можда у стању да сломи срца. Само то чини потрагу за заустављањем штетних исхода вредним разлогом, рекли би неки.

Још једна анонимна изрека за затварање ове тешке дискусије:

"Будите опрезни са својим речима. Једном када су изговорени, могу им само бити опроштени, не и заборављени.”

Као људи, можда ћемо имати потешкоћа да заборавимо прљавштину коју производи вештачка интелигенција, а наш опрост би такође могао бити неодлучан да добијемо.

Ми смо, ипак, само људи.

Извор: хттпс://ввв.форбес.цом/ситес/ланцеелиот/2023/02/05/хов-хард-схоулд-ве-пусх-генеративе-аи-цхатгпт-инто-спевинг-хате-спеецх-аскс-аи- етика-и-аи-лав/