wikidata

Page 1

வி கி தர வி கி வாரி (Wikidata and Wiki Quarry) -நீ ச கார neechalkaran@gmail.com

ைர: கணினி ெமாழியிய (Computational Linguistics) ைற கிைட ள வர வி கி தர (wikidata). இ வி கிமீ யா அற க டைளயி க ட ற தி டமா . இ வைர க ைரகைள , தகவ கைள ெதா ைவ த நிைலயி இ தர களாக மா றி ஒ ேறா ஒ எ வைகயான ெதாட எ ப ட ெதா , கணினி ட ஒ திைச ஒ தகவ தளமாக உ ள . இதனா ஒ ெமாழி அ த ெமாழி மான இைடெவளி க ப எளிதி ெமாழிெபய பிய த எ திரனிய வைர பய ப . 2012 அறி கமான வி கி தர ப ப யாக வள ஒ றி பிட த க நிைலைய இ எ ள . வி கிமீ யாவி பிற தி ட க ேபால யாவ ெதா க யதா இ பலமட எதி கால தி வளர ய . இதர தி ட க ெமாழிெபய கைள ஒ கிைண க உ வா க ப ட translatewiki.net எ ற தி ட ள . இதி இய ெமாழிைய எ ப ெமாழிெபய கலா எ ம ேம தர க இ . ஒ கணினி தானாக ப பா க த க த க க இ ைல. கிளி நாேல கிரா க வி பய ப ட Freebase எ ற தி ட ஏற ைறய வி கி தரைவ ஒ த ஆனா ெபரிதாக வள க யாம கி அைத நி திவி , வி கி தரைவ பய ப த ெச ள . SNPedia, DBpedia ேபா ற பல தி ட க இத இ தா அைவ தர தள அளவிேலேய நி வி டன, ஒ ெமாழியிய பய பா இ லாம இ தன. SIMILE, Stumpedia ேபா ற தி ட க எ திர ஒ திைசேவா (machine readable) இ தா தமி கான வா க இ ைல. அ வைகயி தமி உதவ ய ஒ அறி தள வி கி தர . வி கி தர எ றா எ ன? வி கி தர எ ப மனித க , கணி ெபாறிக ப ரி ெகா ள ய ஒ அறி தளமா . இ ெவா ெசறிவாக க டைம க ப ட ஒ க ட ற தர தள . அைன தகவ க ஒ ேறா ஒ எ வா ெதாட ைடய எ றி க ப . "தமி நா " எ ற ெசா ைல ஒ "மாநில " எ ற ப பா றி க ப . அத இ பிட ப களாக நா எ பதி இ தியா , க ட எ பதி ஆசியா றி க ப . எனேவ ஒ கணினி இ தரைவ அ ேபா அ த ப களி அ பைடயி தமி நா எ ற ெசா ைல அதனா உண ெகா ள . ெபா வாக ஒ கணினி ரி வித தி தர கைள உ ளீ ெச ேவ னா ஒ ெவா ைற கணினி விள கேவ . ஆனா வி கி தர ெகா ய றா கணினிேய எளிதி ரி ெகா .

வி கி தரவி அைம : ப பான (Property) P எ ற றி ெசா ட , உ ப க (Items) Q எ ற றி ெசா ட றி க ப . இ வாேற அைன தர wikidata.org எ ற தள தி உ ளிட ப . ஒ உ ப ம ெறா உ ப இைண ைப இ த ப றி கிற . உதாரண த ைத எ ற ப பான Property:P22​ எ ற உ ெபா ளாக (entity) வி கி தரவி இ . மகா மா கா தியி த ைத எ பைத றி க, கா தியி உ ப எ ணி (Q1001​) P22 எ ற ப பி கர ச கா தியி உ ப எ (Q11735530​) றி க ப . இ வா தர க ஒ ேறா ஒ


இைண தி . எ களாக றி க ப தா மனித க ரி ெகா ள ஏ வாக ெபய க க ெதரி . ேம ஒ ெவா ப பி வர க (Qualifier) அைம கலா . உதாரண தமிழக த வ எ பதி காமராஜ எ ற தரைவ ெகா அவ பதவி வகி த கால ைத வர பாக ெகா கலா . இத ல அ த த கால தி த வராக இ தவ க ப றிய ெதா கிைட . பய பா உலகெம லா இ அறி ெச வ கைள ஒேர இட தி ெதா பதனா இ ெவா ய சிெய பதா மீ வா க தவி க ப . உதாரணமாக ஒ தமி தக ைத ப றி அைன தகவ கைள த க ப க ட தமிழி உ ளீ ெச தாேல உலகெமாழிகளி எ லா இ தகவ கிைட க ெப வி . மீ அ ெமாழியின அ தக ப றி உ ளீ ெச ய ேதைவயி ைல. அைத ேபாலேவ அ நா கைல ெச வ க அ ெபா .ஒ ெபய ெசா லி ப க எ னஎ கணினி நா தனியாக அறி க ெச தா இய ெமாழி ப பா வி பய ப கிேறா . ஆனா வி கி தரவி வழியாக ெச தா ஏ கனேவ எ த ெமாழியி யா அறி க ெச தி தா அதைன அ ப ேய பய ப தி ெகா ள . ஊடாட : ைம ேராசா கா டனா, ஆ பி நி வன தி சிரி, கி ந , அெல சா ேபா ற ெம நிக உதவியாள க பிற ெமாழிகளி வ வி டன. ேக ேக வி பதிலளி , பணிகைள ெச , நிைன என ஒ உதவியாளைர ேபால இ த ெம ெபா க ெசய ப கி றன. அ வைகயி தமிழி ஊடாட ய ெம ெபா க வரேவ எ றா உலக அறி ஒ ெசறிவான வைகயி தமிழி க டைம க ப கேவ . அ த வைகயி வி கி தர நம கான ஒ ந வா . அத ல கணினியா ேதைவயான தர கைள எ ப உணர . "தமி நா ெந லி விைல எ ன?" எ ஒ உதாரண ேக விைய எ ெகா ேவா . கணினியான த ேபாைதய ப திறனா "தமி நா " எ ற ேவ ெசா ைல ரி ெகா அைத ேபால "ெந " எ பைத அறி ெகா . அத பி ன இ விர மான ெதாட ைப உண தி கா . அைத வி கி தர உண கிற . தமி நா எ ப ஒ நி வாக ப தி எ , ெந எ ப ஒ ப ட எ அறியலா . அத விைல எ ற ப பி அத மதி கைள அறியலா தலாக அேத நி வாக ப தியி உ ள விைல எ வினாவினா நம ேதைவயான விைல கிைட வி . இேத ேபால "பா களி ெபரிய வில எ ?" எ ேக டா அைத ேபால ஒ ெவா ப பாக பிரி நம கான விைடைய ஒ கணினி வழ வத கான ெசய ைறைய க தர . ெமாழிெபய : ப ெமாழியி ஒ ெசா கான ெபய க அைன ெதா க ப வதா இைத ஒ ெசா வ கியாக பாவி கலா . திய ெசா க நிகரான பிறெமாழி ெசா கைள இ கி எ கலா . இைத வி சனரி ெச தா வி கி தரவி அ த ெசா லி ேவ ெசா , பய பா கால , இைணயான இதர தர எ கணினி எ றவைகயி க டைம ெகா ள . இய பாகேவ ஒ ெவா வி கி பீ யா ப க தி பிற ெமாழி ப க தி இைண கைள வி கி தரவி வாயிலாகேவ அ நி வன ெச கிற . உைர ஒலி மா றி ஒ ெவா ெசா அைம கலா . அ வா

வி கி தரவி அத கான ஒலி ேகா கைள ெவ ேவ வழ ெமாழியி அைம க ப ேபா உைர ஒலி மா றிகளி தனி பயனா க (customization)


ெச ய . அ த ப தி சா த ஒலி ேகா கைள ெகா அ ல ெப ர எ பயனரி வி ப தி ேக ப பய ப

ஒலி க ெச யலா . ஆ தலா .

நிரலா க : ஒ தானிய கியாேலா, ேவ வினாவாலாேலா தகவைல எ ப ெபறலா எ பைத இ ேக பா ேபா . வி கி தரவி API மீ யாவி கி ெம ெபா எ பதா அ கி அ பைடயான ப ேவ ெசய பா கைள ெபறலா . அத ஆவண கைள இ ேக காணலா . https://www.wikidata.org/api/ ேம அதிநவீன வினாவா வி கிமீ யாேல க விக உ ளன.http://wdq.wmflabs.org/ ேநர யாக வினாவ கைள எ தி ேசாதி பா கேவா இய கி பா கேவா உ ள . https://query.wikidata.org/​ எ ற SPARQL ெமாழி வசதி https://github.com/Wikidata/StrepHit​ ேபால தனிநப சில இ வைகயான ெமாழியிய பய பா வி கி தரைவ பய ப த ய கி றன . அ கலாமி கைள எ லா எ க ேவ ெம றா க கான ப எ 50, கலாமி எ 9513 எ பைத இ வா வினாவா ெச தரைவ ெபறலா . http://wdq.wmflabs.org/api?q=CLAIM[50:9513]

சவா : ● வி கி தர எ ப வள த தி டம ல எனேவ அைன தர க த ேபாைத கிைட காம ேபாகலா . ஆனா எதி கால தி தர களி க லமாக மா றியி . ெதா கலா எ பதா தகவலி ந பக த ைம றி ேக வி ● வி கி தரைவ யா எழலா . தளவி வி கி தரவி உ ள த னா வல க தர களி ந பக த ைமைய உ தி ெச கிறா க . ● வி கிமீ யாவி ச டதி ட க உ ப ேட தர க அ மதி க ப வதா நம ேவ ய அைன கிைட கா . ைர: வி கி தர ஒ ெதாட கநிைல தி ட ஆைகயா ைமயான தர க இ லாம ேபாகலா ஆனா எதி கால தி கணினி ெமாழியிய வி கி தரவி றி ேவ ெபரிய வள கேள இ லாம ேபாகலா . தமி , தமிழ சா த தர கைள வி கி தரவி அதிகளவி ஏ ற ேவ . இதனா பிறெமாழியின உ பட தமிழ ெதாட பான ஆ க அ பய ப . வி கி தரவி வழியாக கணினியி ப பா திறைன ேம ப தி ெகா தமி க விகைள உ வா க ேவ .

ேம ேகா க : https://www.wikidata.org/wiki/Help:FAQ https://books.google.co.in/books?id=2vpRCgAAQBAJ https://blog.wikimedia.de/2015/02/23/platypus-a-speaking-interface-for-wikidata/ http://static.googleusercontent.com/media/research.google.com/en//pubs/archive/44818.pdf


Turn static files into dynamic content formats.

Create a flipbook
Issuu converts static files into: digital portfolios, online yearbooks, online catalogs, digital photo albums and more. Sign up and create your flipbook.