abclinuxu.cz AbcLinuxu.cz itbiz.cz ITBiz.cz HDmag.cz HDmag.cz abcprace.cz AbcPráce.cz
Inzerujte na AbcPráce.cz od 950 Kč
Rozšířené hledání
×
    dnes 18:00 | IT novinky

    DuckDuckGo AI Chat umožňuje "pokecat si" s GPT-3.5 Turbo od OpenAI nebo Claude 1.2 Instant od Anthropic. Bez vytváření účtu. Všechny chaty jsou soukromé. DuckDuckGo je neukládá ani nepoužívá k trénování modelů umělé inteligence.

    Ladislav Hagara | Komentářů: 0
    dnes 14:22 | IT novinky

    VASA-1, výzkumný projekt Microsoftu. Na vstupu stačí jediná fotka a zvukový záznam. Na výstupu je dokonalá mluvící nebo zpívající hlava. Prý si technologii nechá jenom pro sebe. Žádné demo, API nebo placená služba. Zatím.

    Ladislav Hagara | Komentářů: 2
    dnes 04:44 | Nová verze

    Nová čísla časopisů od nakladatelství Raspberry Pi: MagPi 140 (pdf) a HackSpace 77 (pdf).

    Ladislav Hagara | Komentářů: 0
    dnes 01:00 | Nová verze

    ESPHome, tj. open source systém umožňující nastavovat zařízení s čipy ESP (i dalšími) pomocí konfiguračních souborů a připojit je do domácí automatizace, například do Home Assistantu, byl vydán ve verzi 2024.4.0.

    Ladislav Hagara | Komentářů: 0
    včera 22:11 | IT novinky Ladislav Hagara | Komentářů: 0
    včera 20:55 | Nová verze

    Neziskové průmyslové konsorcium Khronos Group vydalo verzi 1.1 specifikace OpenXR (Wikipedie), tj. standardu specifikujícího přístup k platformám a zařízením pro XR, tj. platformám a zařízením pro AR (rozšířenou realitu) a VR (virtuální realitu). Do základu se z rozšíření dostalo XR_EXT_local_floor. Společnost Collabora implementuje novou verzi specifikace do platformy Monado, tj. open source implementace OpenXR.

    Ladislav Hagara | Komentářů: 2
    včera 17:22 | Nová verze

    Byla vydána nová verze 0.38.0 multimediálního přehrávače mpv (Wikipedie) vycházejícího z přehrávačů MPlayer a mplayer2. Přehled novinek, změn a oprav na GitHubu. Požadován je FFmpeg 4.4 nebo novější a také libplacebo 6.338.2 nebo novější.

    Ladislav Hagara | Komentářů: 13
    včera 17:11 | Nová verze

    ClamAV (Wikipedie), tj. multiplatformní antivirový engine s otevřeným zdrojovým kódem pro detekci trojských koní, virů, malwaru a dalších škodlivých hrozeb, byl vydán ve verzích 1.3.1, 1.2.3 a 1.0.6. Ve verzi 1.3.1 je mimo jiné řešena bezpečnostní chyba CVE-2024-20380.

    Ladislav Hagara | Komentářů: 2
    včera 12:11 | IT novinky

    Digitální a informační agentura (DIA) oznámila (PDF, X a Facebook), že mobilní aplikace Portál občana je ode dneška oficiálně venku.

    Ladislav Hagara | Komentářů: 10
    včera 05:11 | Komunita

    #HACKUJBRNO 2024, byly zveřejněny výsledky a výstupy hackathonu města Brna nad otevřenými městskými daty, který se konal 13. a 14. dubna 2024.

    Ladislav Hagara | Komentářů: 2
    KDE Plasma 6
     (68%)
     (10%)
     (2%)
     (20%)
    Celkem 564 hlasů
     Komentářů: 4, poslední 6.4. 15:51
    Rozcestník

    Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

    16.10.2020 20:31 | Přečteno: 1175× | Žumpa | Výběrový blog | poslední úprava: 17.10.2020 16:04

    Pred viac ako rokom, som sa pokúšaľ naprogramovať eJileka pomocou GPT-2, naučil sa české slová, ale nič zaujímavé z neho neliezlo. Na 4-jadrovom Xeone som učenie nechal bežať 10dní. Potom som to celé prepísal do Keras LSTM, ale výsledky boli podobné.

    Takže som to na čas dal bokom. Ak by si niekto chcel stiahnuť blogy mistra Jílka, tu je script.

    Teraz som si hovoril, že zas niečo s textami vyskúšam, ale inak.

    1. Stiahnutie názvov článkov zo slovenskej Wikipedie.

    Ak by ste si to chceli vyskúšať, projekt nájdete tu.

    Skript get_all_articles.py vám stiahne z Wikipedie všetky názvy slovenských článkov.

    Ak si chcete vyskúšať stiahnuť články pre iný jazyk, tak stačí v skripte prepísať LANGUAGE = "sk" a do main_categories stačí vložiť názvy kategórí z hlavnej stránky Wikipedie v danom jazyku.

    Mne osobne stiahlo 215128 názvov.
    cat list/list.txt | wc -l
    215128

    Problém je v tom, že jeden článok je v X-kategóriach a podkategóriach. Keď sa pozrieme na štatistiku duplicity, uvidíme koľko krát sa ktorý článok v odkazoch opakuje:
    sort list/list.txt | uniq -c | sort -nr | head
        545 Imagine_Peace_Tower
        189 Super_Jamato_(trieda_lodí)
        189 Rimava_(rieka)
        174 Slaná
        165 Sovetskij_Sojuz_(trieda_lodí)
        165 Scharnhorst_(trieda_lodí)
        165 Jamato_(trieda_lodí)
        165 Bismarck_(trieda_lodí)
        163 Šinano_(lietadlová_loď)
        157 Cirocha
    Možno existuje nejaké elegantnejšie riešenie pre stiahnutie článkov z Wikipedie, ale neviem o ňom. Takže som si extrahoval len unikátne názvy:
    awk '!seen[$0]++' list/list1.txt > list/list-uniq.txt
    Počet jedinečných článkov je v skutočnosti 15723.
    cat list/list-uniq.txt | wc -l
    15723

    2. Stiahnutie samotných článkov zo slovenskej Wikipedie.

    Texty z článkov si stiahnete skriptom download.py. Všetky články sa sťahujú do priečinku articles. Ak sa z nejakého článku nepodarí extrahovať text, tak sa zaloguje do errors/error_save_article.txt. (články sa u mńa práve sťahujú)

    3. Určenie slovných druhov

    Toto je vec ktorú ešte neviem (asi pridám ďalší rozmer modelu) ako využijem, ale ukážeme si ako môžete každému slovo priradiť jeho slovný druh. Použil som softvér Majka z Masarykovej univerzity. Používa sa to tak, že si najskôr stiahnete slovník pre daný jazyk (je to vždy odkaz čo sa volá data), stiahnete Majku, z rovnakých stránok a môžete si vyskúšať vycucať údaje o nejakom slove.

    Napríklad vyskúšame slovo Dom.
    echo Dom | ./majka -f w-lt.sk.fsa
    dom:k1gInSc1
    dom:k1gInSc4
    dom:k1gInSc5
    dom:kA
    To nám to vypľuje, že je to Substantivum, rod mužsḱý neživotný, číslo jednotné v páde 1, 4 a 5. Do ľudského jazyka si to dekódujete pomocou tejto nápovedy.

    4. Ako to narvať do nejakej neurónky

    Toto zas nemám momentálne premyslené :-) Ale napríklad sa dá vyskúšať miniature GPT , LSTM, alebo čo vás napadne. Najviac sa tešim, že by to mohlo celkom dobre fungovať, so slovnými druhmi + LSTM a nejaké hranie sa s tým. Momentálne mám v pláne iné veci, ale chcel som si pripraviť aspoň nejaké dáta.

    O AI píšem na LOS, hlavne zatiaľ pre úplných začiatočníkov, tak napríklad prvý praktický príklad v rozpoznávaní obrazu


    Prípadne si môžete vyskúšať aj niečo online.

    UPDATE:

    Napísal som nový skript pre stiahnutie všetkých názvov z Wikipedie podľa tohto komentára pod blogom. Skript sa vollá get_all_articles_special.py a stiahol 307149 názvov strániek. Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola. Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
           

    Hodnocení: 60 %

            špatnédobré        

    Anketa

    Váš postoj k AI
     (9 %)
     (14 %)
     (18 %)
     (9 %)
     (50 %)
    Celkem 22 hlasů

    Obrázky

    Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 1 Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI, obrázek 2

    Tiskni Sdílej: Linkuj Jaggni to Vybrali.sme.sk Google Del.icio.us Facebook

    Komentáře

    Vložit další komentář

    cbrpnk avatar 16.10.2020 21:13 cbrpnk | skóre: 8 | blog: bl0gium
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    AI programuje mńa...
    Bedňa avatar 16.10.2020 21:24 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Berem to ako sťažnosť na akentu, že tam táto možnosť chýba :-)
    KERNEL ULTRAS video channel >>>
    17.10.2020 15:28 ?
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    chyba v inteligenci?
    16.10.2020 21:42 Špeciálne:VšetkyStránky
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Bedňa avatar 16.10.2020 21:48 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Pekné, ale maš otskúšané, že to naozaj funguje OK?
    KERNEL ULTRAS video channel >>>
    16.10.2020 22:04 Špeciálne:VšetkyStránky
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Ty máš rozpor. Ty tvrdíš, že slovenská wikipédia má 15723 jedinečných článkov. Na úvodnej stránke slovenskej wikipédie (vpravo hore) sa píše ich počet, ktorý je o dekádu väčší ako tvoj.
    Bedňa avatar 16.10.2020 22:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Toto je fakt, ktorý som zabudol uviesť. Veľa článkov má len nejaké tabuľky, prípadne rozcestníky na nejaké odkazy a tie žiadne užitočné informácie pre AI neponúkajú. Uvediem príklad ktorých je ale na Wikipédié plno, plus to číslo čo odkazujú sa podobá na číslo čo mi vypadlo z kategórií. Netvrdím, že ja mám pravdu, skôr by som si nechal poradiť od nejakého zbehlého Wikipedistu.
    KERNEL ULTRAS video channel >>>
    17.10.2020 11:38 debian+
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Sporný máš aj ten nadpis. Ty nesťahuješ všetky stránky slovenskej wikipédie, ale iba tie, ktoré majú kategóriu. Prípadne ešte na ktoré si natrafil v článku (ak si to tak implementoval). Čo podľa toho tvojho vychádza, že ~6,75% všetkých stránok zo slovenskej wikipédia má nejakú kategóriu.
    Bedňa avatar 17.10.2020 13:51 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej Wikipedie pre AI
    Příloha:
    Napísal som Ďalší skript a ten to podľa rady z https://sk.wikipedia.org/w/index.php?title=%C5%A0peci%C3%A1lne:V%C5%A1etkyStr%C3%A1nky&hideredirects=1

    Ale kopu stránok je prázdnych, ako napr. toto.
    KERNEL ULTRAS video channel >>>
    17.10.2020 02:33 Špeciálne:VšetkyStránky
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    17.10.2020 07:22 JS1 | skóre: 2 | blog: intuition_pump
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Tak bys to delat nemel, viz Wikipedia:Database_download.

    Taky je moznost stahnout si ZIM soubory pro Kiwix.
    Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
    Bedňa avatar 17.10.2020 10:06 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Mno ja neviem, skúšal si ten softvér? Mne to dvakrát spadlo, na to nemám čas.
    KERNEL ULTRAS video channel >>>
    17.10.2020 11:19 Špeciálne:VšetkyStránky
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

    To je najlepšie.

    Stiahneš: stiahneš
    Výpis a spracovanie (nič extra ťažké): wiki.openzim.org/wiki/Zimlib

    17.10.2020 14:50 x
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    A proč neřekneš té AI, ať si to stáhne sama?

    Asi to není tak uplně AI, že...
    Bedňa avatar 17.10.2020 15:13 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    To bude vedieť až potom, keď sa to naučí.
    KERNEL ULTRAS video channel >>>
    Gréta avatar 17.10.2020 15:22 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI

    bliká to jako když vomylem máčknu banner s čínskou reklamou :O :O :D ;D

    17.10.2020 16:06 _
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    přítelkyně takhle bliká, když jí zmáčknu klitoris
    Gréta avatar 18.10.2020 16:51 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Bedňa avatar 17.10.2020 16:07 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    :-)

    Spravil som UPDATE zápisku a skriptu podľa tohto komentára.
    KERNEL ULTRAS video channel >>>
    17.10.2020 16:35 Špeciálne:VšetkyStránky
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    k UPDATE:
    Na záver sa zacyklil , takže som skript musel vypnúť ručne. Nemajú to vyvhytané, pretože posledná stránka sa opakuje stále dookola.
    Majú vychytané. Viď poslednú stránku toho zoznamu.
    Teraz sa stánky sťahujú, mno kopec z nich sú obsahovo prázdne, ako je vidieť na obrázku nižšie.
    Ak dáš tie a la prázdne stránky editovať, tak zistíš, že nie sú prázdne. Máš označené, že prázdná stránka, ale tá stránka má a la užitočný text pre používateľa (myslený text vľavo v článku).
    Viď.: 735_Marghanna 735 734_Benda 734 733_Mocia 7336_Saunders 733 732_pred_Kr. 732_Tjilaki 732 731_Sorga 730_Athanasia 72_Feronia 729_Watsonia 728_Leonisis.
    Bedňa avatar 17.10.2020 16:40 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Texty kratšie ako 25 znakov zahadzujem, pretože to potom zbieralo bordel.
    KERNEL ULTRAS video channel >>>
    Bedňa avatar 17.10.2020 20:21 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Tak už chápem aj problém so zacyklením na konci, Odkaz na predchádzajúcu a ďalšiu stránku má rovnaký CLASS mw-allpages-nav.
    KERNEL ULTRAS video channel >>>
    17.10.2020 18:35 NO3
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Zkus to rozchodit na grafice. Rozdíl ve výkonu je drsnej.
    Gréta avatar 18.10.2020 16:53 Gréta | skóre: 36 | blog: Grétin blogísek | 🇮🇱==❤️ , 🇵🇸==💩 , 🇪🇺==☭
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    18.10.2020 09:56 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Jedním z principů mediawiki je, že nabízí možnost přelití obsahu do jiné wiki. Já si tak kupř. kdysi přelil stránky nápovědy. Takže není nutné vymýšlet tyhle brykule.

    A mimo jiné také existuje rozšíření pro git, které umožňovalo (nevím jak je tomu teď, protože to už nepoužívám) udržovat obsah wiki přes git - včetně předchozích verzí článků.
    Bedňa avatar 18.10.2020 10:16 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    No tak mi daj link, kde si stiahnem slovenskú, alebo českú Wikipediu v HTML formáte, bez obrázkov.

    Mne to beží od včera a už mám 130000 stránok, večer to mám hotové.
    KERNEL ULTRAS video channel >>>
    18.10.2020 13:28 j
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki, tak tobe pomoci neni. Zato pevne doufam, ze tebe a celyho tvyho ISP wiki brzo hodi na blacklist. Presne kvuli takovym hovadum pak sou problemy s vykonem.

    A jeste k tomu debil, kterej prijde, a chlubi se tim, jak debilni je ...

    ---

    Dete s tim guuglem dopice!
    Bedňa avatar 18.10.2020 14:32 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Mno jelikoz ses evidentne debil, kterej neumi stahnout databazi, a pripadne si ji nalejt do vlastni instance mediawiki
    Nechcem si inštalovať softvér ktorý nebudem používať. Uvítal by som klasické zipko všetkých stránok. Niečo som dal teraz sťahovať, ale netuším čo v ňom bude (https://dumps.wikimedia.org/backup-index.html).

    Inak používam knižnicu, ktorá používa officiálne Wikipedia API, takže to robí trafic medzi 50 - 100kbit/s. To robím väčší DDOS, keď si pustím niečo na YT. 99% požiadaviek aj tak vybaví keš.
    KERNEL ULTRAS video channel >>>
    19.10.2020 12:50 JS1 | skóre: 2 | blog: intuition_pump
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Nenech si to od j zkazit, ja jsem rad, ze se tim zabyvas. Sam si chci v budoucnu hrat s reinforcement learningem, nicmene stale mam zatim co delat v P vs NP (v ankete jsem hlasovat nemohl, protoze moznost "delam na tom a znici to svet" tam nebyla ;-)).

    Nicmene, porizeni/sestaveni vhodnych vstupnich dat je asi nejslozitejsi cast vsech AI projektu. Takze je jasne, ze na tom nejaky cas stravis.
    Lidstvo čelí v tomto století hrozbě civilizačního kolapsu. Podpořte hnutí klimatickakoalice.cz!
    Bedňa avatar 20.10.2020 04:12 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Ale v poho, ja beriem kritiku ako pozitívny nástroj.

    Okrem zberu dát, sú potom ešte testy ako sa sieť učí, úpravy modelu a tak. To tiež vie zožrať času, hlavne keď čakáš pár hodín aby si sa dozvedel výsledok.
    KERNEL ULTRAS video channel >>>
    18.10.2020 17:25 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Link zde.
    Bedňa avatar 18.10.2020 19:30 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    To isté ponúka API, nie?
    KERNEL ULTRAS video channel >>>
    18.10.2020 10:00 Aleš Kapica | skóre: 51 | blog: kenyho_stesky | Ostrava
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    A všetečku, co by se podobným způsobem pokoušel stahovat mou wiki by nejspíš terminoval fail2ban.
    18.10.2020 18:22 jiwopene | skóre: 31 | blog: Od každého trochu…
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Wikipedie má nějaké API pro export včetně převodu do plaintextu.
    .sig virus 3.2_cz: Prosím, okopírujte tento text do vaší patičky.
    Bedňa avatar 18.10.2020 19:29 Bedňa | skóre: 34 | blog: Žumpa | Horňany
    Rozbalit Rozbalit vše Re: Stiahnutie slovenskej alebo inej národnej Wikipedie pre AI
    Ja som použil Wikipedia API, ale upravil som čo chcem stiahnuť. Po prvé som vytiahol len texty uzatvorené v tagu <p>, ďalej sťahujem len riadky dlhšie ako 25 znakov, padali tam všelijaké divné veci (vzorce ...), rovnako som odstánil veci vložené medzi medzi zložené zátvorky a samozrejme prázdne riadky. Chcem len čisté texty, bez odkazov atď.
    KERNEL ULTRAS video channel >>>

    Založit nové vláknoNahoru

    ISSN 1214-1267   www.czech-server.cz
    © 1999-2015 Nitemedia s. r. o. Všechna práva vyhrazena.